무작위 실험연구 (Randomized Experiments)
먼저 중요한 것은 관찰연구(observational study)가 아니라 실험연구(experiments)라는 것이다. 관찰연구는 연구자가 직접 개입하여 실험을 진행하기 때문에 무작위 배정(randomized control)이 가능해진다. 즉 처리집단(treatment)과 통제집단(control)이 나뉠 때 관찰연구에서 발생할 수 있는 두 집단이 내가 확인하려는 설명변수뿐 아니라 다른 요인, 즉 혼동요인(confounding factor)에 의해 영향을 받아 두 집단의 성질 자체가 달라져 제대로된 인과추론을 할 수 없게 되는 상황을 무작위 배정을 통해 극복할 수 있다.
또한 무작위 배정을 하고 나서도 실험자와 피험자 모두가 실험 여부에 영향을 받지 않도록 이중 눈가림(double blindness) 역시 지켜져야 한다. 예를 들어서 백신의 영향을 추정한다고 하면 피험자가 자신이 백신을 맞았다는 사실에 의해 백신을 맞지 않았을 때와 다른 영향을 받을 수 있다. 혹은 실험자가 자신의 이익에 의해 백신을 맞은 피험자에 대해 백신의 효과가 더 잘 나오도록 영향을 줄 수도 있다. 따라서 백신을 맞지 않는 피험자에게도 식염수를 주사하여 자신이 백신을 맞았는지 맞지 않았는지 모르게 하고, 그것을 관찰하는 실험자 역시 백신을 맞은 피험자인지 아닌지를 모르게 해야 이러한 영향을 제거할 수 있을 것이다. 이것이 이중 눈가림이다.
이렇게 무작위 배정과 이중 눈가림이 완벽한 이상적 실험연구는 자연과학 분야에서는 그래도 사용하기 용이하나 사회과학 분야에서는 윤리적 혹은 재정적 문제로 현실성이 떨어져 사용되기 어렵다는 단점이 있다. 가장 큰 문제는 누락된 반사실적 결과(missing counterfactual outcomes)이다. 예를 들어 백신의 효용을 평가하기 위해서는 사실 여러 사람을 비교하는게 아니라 특정 개인이 백신을 맞았을 때와 맞지 않았을 때를 비교해야 한다. 그런데 특정 사람에게 백신을 맞히게 되면 그 사람이 백신을 맞지 않았을 때의 결과는 알 수 없게 된다. 이를 누락된 반사실적 값이라 한다. 당연하게도 처치 상태(with treatment)와 처치받지 않은 상태(without treatment)를 동시(same time)에 관찰 불가능하기 때문에 누락된 반사실적 값이 생겨난다.
무작위 실험연구가 혼동요인을 해결하는 방법
무작위 실험연구에 대해 더 자세히 알기 위해 하나의 실험을 가정하자. 실험은 간단하게 하기 위해 병원 방문이 건강에 미치는 영향에 대한 실험이라 하자. 이제 병원 방문에 대한 것을 표시확률변수(binary random variable 혹은 indicator random variable-참고링크) $ D_i $ 로 나타내자. $ D_i = 1 $ 이면 병원을 방문한 것이고, $ D_i = 0 $ 이면 병원을 방문하지 않은 것이다.
$$ D_i = \{ 0, 1 \} $$
이제 실험의 결과(outcome), 즉 건강을 $ Y_i $ 라 하자. 그렇다면 실험은 병원 방문인 $ D_i $ 가 $ Y_i $ 에 영향을 미치는지 판단하는 실험이 된다.
이때 각 개인은 두가지 잠재적 결과(potential outcomes)를 가진다.
$$ \text{potential outcomes} = \begin{cases} Y_{1i} & (D_i = 1) \\ Y_{0i} & (D_i = 0) \end{cases} $$
이때 $ Y_{0i} $ 는 해당 개인이 병원에 가지 않았을 경우 건강 상태이고, $ Y_{1i} $ 는 해당 개인이 병원에 갔을 경우 건강 상태이다. 이것은 실제 갔는지와 관계없다(irrespective of whether).
그렇다면 여기서 앞서 말한 누락된 반사실적 결과(missing counterfactual outcomes)를 $ Y_i $, $ D_i $ 는 관찰 가능하지만, $ Y_{0i} $, $Y_{1i} $ 를 동시에 관찰할 수 없다는 것을 통해 확인할 수 있다. 이것이 첫 번째 문제이다.
두 번째 문제는 한 개인에 대한 처치(treatment)가 다른 사람의 처치 여부에 영향을 받을 수 있다는 것이다. 즉 외부 효과(externality effect 혹은 peer effect)에 대한 영향이 문제이다. 단 지금은 안정적 개별 처리 값을 가정(SUTVA, stable unit treatment value assumption)하자. 즉 외부효과를 배제하고 생각하자.
문제점은 잠시 차치하고 다시 돌아와 몇가지를 정의하자. 먼저 개별 처치 효과(individual treatment effect)를 $ Y_{1i} - Y_{0i} $ 로 정의하자. 그러나 앞서 말한 근본적인 문제(fundamental problem)인 누락된 반사실적 결과 때문에 이는 알 수 없다.
대신 평균적인 효과(average effects)에 집중하자. 평균처치효과(ATE, average treatment effect), 처치 받은 집단의 평균 처치 효과(ATT, average treatment effect on treated), 처치 받지 않은 집단의 평균 처치 효과(ATU, average treatment effect on untreated), 공변량 $ X_i $ 에 조건부한 평균 처치효과(CATE, average treatment effect conditional on covariates $ X_i $)를 아래와 같이 정의하자.
- $ ATE = E(Y_{1i} - Y_{0i} ) $
- $ ATT = E(Y_{1i} - Y_{0i} \mid D_i = 1) $
- $ ATU = E(Y_{1i} - Y_{0i} \mid D_i = 0) $
- $ CATE = E(Y_{1i} - Y_{0i} \mid D_i = 1, X_i = x) $
다시 돌아와 병원 치료의 인과적 효과(causal effect)를 식으로 나타내면 $ Y_{1i} - Y_{0i} $ 이다. 그러나 우리가 관측 가능한 결과(observed outcome)는 $ Y_i = (Y_{1i} - Y_{0i}) D_i + Y_{0i} $ 이다. 즉 개인이 병원을 방문하면 $ Y_{1i} $ 를, 방문하지 않으면 $ Y_{0i} $ 만을 알 수 있다. 앞서 언급한 평균적인 효과로 치환하여 확인하면 $ E(Y_{1i} \mid D_i = 1) - E(Y_{0i} \mid D_i = 0) $ 인데 역시 확인 불가능하다. 결국 병원에 방문한 사람과 방문하지 않은 사람의 평균 건강 상태를 비교하여 병원 치료의 평균적인 효과를 추정(estimate)해야 한다.
이를 위해 앞선 식을 이용해 다음과 같은 식을 만들 수 있다.
$ Y_i = (Y_{1i} - Y_{0i}) D_i + Y_{0i} $ 에 조건부 기댓값을 적용해 다음과 같이 만들어보자.
$ E(Y_i \mid D_i = 1) = E(Y_{1i} \mid D_i = 1) - E(Y_{0i} \mid D_i = 1) + E(Y_{0i} \mid D_i = 1) $
$ E(Y_i \mid D_i = 0) = E(Y_{0i} \mid D_i = 0) $
위 식에서 아래 식을 빼면 다음과 같다.
$ E(Y_i \mid D_i = 1) - E(Y_i \mid D_i = 0) = E(Y_{1i} \mid D_i = 1) - E(Y_{0i} \mid D_i = 1) + E(Y_{0i} \mid D_i = 1) - E(Y_{0i} \mid D_i = 0) $
$$ E(Y_i \mid D_i = 1) - E(Y_i \mid D_i = 0) = E(Y_{1i} \mid D_i = 1) - E(Y_{0i} \mid D_i = 1) + E(Y_{0i} \mid D_i = 1) - E(Y_{0i} \mid D_i = 0) $$
여기서 앞선 부분인 $ E(Y_i \mid D_i = 1) - E(Y_i \mid D_i = 0) $ 는 평균 건강 상태 차이로 우리가 관측 가능한 차이(observed difference)이다. 뒷 부분 중 $ E(Y_{1i} \mid D_i = 1) - E(Y_{0i} \mid D_i = 1) $ 는 $ ATT $ 이고, $ E(Y_{0i} \mid D_i = 1) - E(Y_{0i} \mid D_i = 0) $ 는 우리가 관측 불가능한 선택 편향(selection bias)이다. 선택 편향은 여기서는 병원에 간 사람들과 가지 않은 사람들 사이의 기본 건강 상태 차이를 의미하게 된다. 즉 우리가 원하는 부분인 $ ATT $ 를 관측된 결과만으로 얻는 것이 불가능한 이유가 혼동요인인 선택 편향이 존재하기 때문인 것을 위 식을 통해 알 수 있다.
다시 정리하면, 우리가 관측할 수 있는 결과로는 우리가 얻고자 하는 결과에 선택 편향이 더해진 값만을 알 수 있다. 앞선 예시로 확인하면 기본적으로 병원에 간 사람들이 가지 않은 사람들보다 건강이 나쁠 것이라 생각해볼 수 있고, 즉 선택 편향이 음(negative)이 되리라 예측할 수 있고, 따라서 우리가 원하는 결과, 즉 병원에 가는 것이 병원에 가지 않는 것에 비해 건강에 미치는 영향에 대해 관측한 값으로는 과소평가하게 된다.
따라서 다르게 보면 선택 편향을 제거하는 것으로 우리가 얻고자 하는 결과를 얻을 수 있고, 이제 목표는 선택 편향을 제거하는 것이다. 여기서 무작위 배정(randomized assignment)이 역할을 한다. 무작위 배정을 한다는 것은 $ D_i $ 가 $ Y_{1i} $ 혹은 $ Y_{0i} $ 를 결정하지 않는다는 것이다. 즉 앞선 예시로 보면 만약 병원을 방문할지 여부가 무작위로 배정된다면, 즉 어떤 사람이 병원에 가도록 할당될 확률이 무작위로 정해진다면, 병원을 방문하는지 여부는 그 사람의 원래 건강 상태인 잠재적 결과(potential outcomes)와 무관해진다. 이는 결국 $ D_i $ 와 잠재적 결과(potential outcomes)가 독립(independent)이 된다는 것이다.
$ D_i $ 와 잠재적 결과가 독립이 되기 때문에 $ E(Y_{0i} \mid D_i = 1) = E(Y_{0i} \mid D_i = 0) $ 이다. 따라서 앞서 결과로 나왔던 선택 편향 $ E(Y_{0i} \mid D_i = 1) - E(Y_{0i} \mid D_i = 0) = 0 $ 이 된다.
또한 다시 확인하면 남아있는 $ ATT = E(Y_{1i} - Y_{0i} \mid D_i = 1) = E(Y_{1i} - Y_{0i} \mid D_i = 0) = ATU $ 가 되며, 다시 $ ATU = E(Y_{1i} - Y_{0i} \mid D_i = 0) = E(Y_{1i} - Y_{0i}) = ATE $ 가 된다.
따라서 무작위 실험연구를 통해 선택 편향을 제거함으로써 관측 가능한 결과와 얻고자 하는 결과를 일치시킬 수 있게 된다. 즉 단순 비교(simple comparison)가 $ ATT $ 의 추정값이 되어 올바른 인과추론(causal inference)이 가능해진다.
회귀분석과의 관계 (Relation to Regression Analysis)
다음과 같이 가정을 하자.
- $ Y_{0i} $ 에 대한 선형 파라메트릭(parametric) 구조가 존재한다.
- 처치 효과(treatment effect)가 일정(homogeneous)하다.
이제 아래와 같이 설정하자.
$$ Y_{0i} = \beta_0 + \epsilon_i , \qquad Y_{1i} - Y_{0i} = \beta_1 $$
그렇다면 $ Y_i $ 를 아래와 같이 회귀식으로 나타낼 수 있다.
$$ Y_i = \beta_0 + \beta_1 D_i + \epsilon_i $$
추정 (Estimation)
표본 평균의 차이, 즉 $ ATE $ 는 $ ATT $ 의 일치추정량(consistent estimator)이다. 즉 아래와 같이 계산된다.
$$ \frac{\frac{1}{N} \sum_{i=1}^N Y_i \cdot 1\{D_i = 1\}}{\frac{1}{N} \sum_{i=1}^N 1\{D_i = 1\}} - \frac{\frac{1}{N} \sum_{i=1}^N Y_i \cdot 1\{D_i = 0\}}{\frac{1}{N} \sum_{i=1}^N 1\{D_i = 0\}}$$
또한 처치 효과를 추정하기 위해 $ D_i $ 외에도 추가적인 공변량(covariates) $ X_i $ 를 포함하는 아래와 같은 선형 회귀를 수행할 수 있다.
$$ Y_i = \beta_0 + \beta_1 D_i + \beta^\prime X_i + \epsilon_i $$
'Economics > Causal Inference' 카테고리의 다른 글
[Causal Inference] 측정오차(measurement error) (0) | 2025.04.09 |
---|---|
[Causal Inference] 누락 편의(omitted variable bias) (0) | 2025.04.01 |
[Causal Inference] 최소제곱법(OLS)을 통한 회귀분석(regression analysis) (0) | 2025.04.01 |
[Causal Inference] 무작위 배정(randomized assignment)에서 고려할 사항 (0) | 2025.03.25 |
[Causal Inference] 인과추론(causal inference) 및 실험연구(experiments)와 관찰연구(observational study) (0) | 2025.03.10 |