고정효과 (Fixed-Effects)
실제 상황에서 무작위 실험연구를 진행하기란 쉽지 않다. 윤리적 문제, 예산 문제도 있거니와 무작위 배정(randomized assignment)이 어렵기 때문이다. 무작위 배정이 왜 어려운지 알아보기 위해 테네시 주에서 있었던 교육 관련 실험(Tennessee Project STAR-참고링크)을 알아보자.
이 실험은 각 학급의 인원수가 학업 성적에 미치는 영향을 확인하고자 하였다. 인원이 13명에서 17명 사이인 작은 학급(small class), 인원이 22명에서 25명 사이인 보통 학급(regular class), 보조 교사가 있는 보통 학급(regular class with an aside)로 나누어 처치집단(treatment group)과 통제집단(control group)을 설정하였다. 그런데 무작위 배정은 테네시 주 전체에서 하지는 못하고, 각 학교별로 무작위 배정을 진행하였다.
문제는 바로 이 지점이다. 테네시 주 전체 아이들에 대한 무작위 배정이 이루어졌다면 무작위 배정을 통해 선택편향(selecs bias)이 제거되고, 관찰 결과와 얻고자 하는 처치 효과(treatment effects)를 동등하게 놓을 수 있었을 것이다. 그러나 학교별로 무작위 배정이 진행되었기에 각 학교별 차이가 남아있게 되었다. 즉 실험 과정에서 조건부 무작위 배정(conditional randomized assignment)이 되었기 때문에 학교라는 변하지 않는 고유한 특성이 생겨났다.
이러한 고유한 특성을 고정효과(fixed-effects)라 한다. 고정효과가 존재한다면 완벽한 선택편향 제거가 어렵다. 예를 들어서 A학교가 B학교보다 평균 성적 자체가 높다고 하자. 그렇다면 A학교의 작은 학급의 성적과 B학교의 보통 학급의 성적을 단순 비교할 수 없다. 이 요소를 처치해야 한다.
이를 처치하기 위해 회귀식에 고정효과 $ \alpha $ 를 넣어준다. $ \alpha $ 는 개체별 더미변수(표시확률변수)를 이용한 것으로 더미변수는 각 개체에 해당하면 $ 1 $, 해당하지 않으면 $ 0 $ 의 값을 가진다. 앞선 예를 들어 설명하면 A학교를 다니는 경우 $ \alpha $ 의 요소 중 A학교에 해당하는 더미변수를 $ 1 $ 로, 나머지 더미변수를 $ 0 $ 으로 계산한다.
$$ \alpha = \sum_{\text{school}} \phi_{\text{school}} D_{\text{school}} $$
여기서 $ D_{\text{school}} $ 가 학교별 더미변수이다. 이러한 방식으로 더미변수 방식(fixed-effects dummy variable)이라 한다.
이 외에도 완벽하게 무작위 배정이 되지 않았다고 가정하고 여러 통제변수(control variables)를 고려할 수 있다. 예를 들어 인종, 무료급식 수급 여부, 성별 등이 있을 것이다. 통제 변수를 아래와 같이 행렬로 나타내자.
$$ X_i = \begin{bmatrix} \text{White/Asian (1 = yes)} \\ \text{Girl (1 = yes)} \\ \text{Free lunch (1 = yes)} \\ \text{White teacher} \\ \text{Teacher experience} \\ \text{Master's degree} \end{bmatrix} $$
그렇다면 최종적으로 통제변수와 고정효과, 오차를 고려하여 다음과 실험의 회귀식을 나타낼 수 있다.
$$ Y_{ics} = \beta_0 + \beta_1 \text{SMALL}_{cs} + \beta_2 \text{AIDE}_{cs} + \boldsymbol{\beta}_3 \mathbf{X}^\prime_{ics} + \alpha_s + \epsilon_{ics} $$
여기서 $ \text{SMALL}_{cs} $ 는 작은 학급에 대한, $ \text{AIDE}_{cs} $ 는 보조 교사에 대한 더미변수이다. $ X_{ics}^\prime $ 는 추가적인 통제변수의 행벡터이고, 이에 대한 회귀계수 $ \boldsymbol{\beta}_3 $ 은 열벡터이다. 학교에 따른 고정효과는 $ \alpha_s $ 로 나타냈고, 오차는 $ \epsilon_{ics} $ 로 나타냈다.
참고로 $ ^\prime $ (prime)은 전치(transpose)를 의미하며, $ ^T $ 로 나타내기도 하지만, 사회과학에서는 주로 $ ^\prime $ 으로 나타낸다.
이탈 (Attrition)
지금 고려하는 실험이 모든 변수를 완벽히 통제할 수 있는 자연과학 실험이 아니라 사회과학 실험이라는 점을 감안하면, 이탈은 자연스러운 현상일 수 있다.
예를 들어, 앞서 언급한 테네시 STAR 프로젝트를 생각해보자. 실제 실험 결과에서도 확인되었지만, 작은 학급(small class)에 속한 학생들은 더 많은 보살핌을 받을 가능성이 높고, 이는 성적 향상으로 이어질 가능성이 크리라는 것을 예상할 수 있다. 그렇다면 본인의 아이가 보통 학급(regular class)에 배정된 부모 중 실험을 그만두고 작은 학급에 아이를 맡기고 싶을 수 있다. 그리고 이 경우 실험을 그만둘 정도로 아이의 교육에 관심이 많은 부모가 보통 학급에서 아이를 빼내게 된다면, 반대로 작은 학급에서는 그러한 부모가 아이를 빼지 않는다면, 결국은 작은 학급의 아이와 보통 학급의 아이간 선택 편향(selection bias)이 발생하고, 이는 앞서 계획안 무작위 배정을 무의미하게 만들 수 있다.
앞선 STAR 프로젝트에서는 이 문제를 해결하기 위해 이탈한 학생들의 이전 시험 점수를 이용하여 점수를 대체한 후 이들을 다시 모델에 포함하여 추정하는 방식을 사용하였다. 이 방법이 아니더라도 이탈에 대한 해결 방안이 있으면 좋다.
무작위화 편향 (Randomization Bias)
처리 효과(treatment effects)가 이질적인 경우 발생할 수 있는 문제이다. 즉 실험에 참여한 표본이 모집단과 다를 수 있고, 따라서 모집단에 실험 결과를 그대로 적용하기 어려울 수 있다.
예를 들어 앞선 STAR 프로젝트에 아이를 참여시킨 부모들에 대해 생각하면, 아이의 교육에 관심이 많을 가능성이 높으리라 예상할 수 있다. 그렇다면 실험에 참여한 아이들의 부모들의 교육 관심도는 평균적으로 미국 전체 학부모의 교육 관심도와 다를 것이고, 따라서 이를 모집단에 그대로 적용하기 어려울 수 있다.
호손 효과 (Hawthorne Effects)
실험에 참여한다는 사실 자체가 사람들의 행동에 영향을 줄 수 있다. 특히 이러한 영향이 처치 집단(treatment group)과 통제 집단(control group)에 다르게 미친다면 처치 효과에 대한 예측이 어려워진다.
대표적인 예시가 조명 실험이다. 작업 현장의 조명도와 근로자의 작업 능률을 분석하기 위한 실험이었는데, 조명 밝기에 따라 실제 근로자의 작업 능률이 늘어났다. 그런데 조명을 어둡게 했을 때도 작업 능률이 올라갔고, 심지어 조명을 원래대로 돌려놓았을 때도 작업 능률이 올라갔다. 즉 작업자들이 자신이 연구 대상이라는 것을 인식한 것 때문에 작업 능률이 올라간 것이었다. 이렇게 되면 처치 효과를 측정하기 어려워진다.
대체 편향 (Subsitution Bias)
처치 효과를 측정하기 위해서는 처치 집단의 대조군인 통제 집단은 가능한 실험이 영향을 미치지 않아야 한다. 그런데 통제 집단이 자신들이 처지 대상이 아니라는 것을 알아 이를 대체할 수단을 찾을 가능성이 있다.
예를 들어서 특정 영양제가 건강에 어떤 영향을 미치는지 확인하기 위해 두 집단으로 나누고 실험을 진행한다고 해보자. 그럼 영양제를 받은 집단이 처치 집단이고, 받지 못한 집단이 통제 집단일 것이다. 그런데 통제 집단 사람들이 자신들은 영양제를 받지 못했다는 사실을 안다면 이를 대체하기 위해 다른 방식으로 건강을 챙기려 할 수 있다.
따라서 대체 편향이 존재하면 추정된 처리 효과가 실제보다 낮게 나타날 수 있다. 이중 눈가림(double blindness)이 지켜진다면 이를 억제할 수 있겠지만, 모든 경우에 이중 눈가림이 가능하지 않으니 대체 편향이 존재할 수 있다.
외부효과 (External Effects)
앞선 고려사항 이외에도 외부효과 때문에 실험 결과가 왜곡될 수 있다. 이를 설명하기 위해 예시로 Miguel과 Kremer의 케냐 농촌 지역 초등학교에서 장내 기생충 감염이 학생들의 건강 및 교육에 미치는 영향을 평가한 실험(참고링크)을 알아보자. 여기서는 외부효과를 처치하는 것에 집중하겠다.
실험은 앞서 말한바와 같이 기생충 감염이 건강 및 교육에 미치는 영향을 측정하려고 했다. 실험은 케냐의 특정 지역을 설정하고 그 지역의 초등학교 중 특정 학교는 처치 집단(treatment group)으로, 그 외 학교는 통제 집단(control group)으로 설정하고 처치 집단에는 기생충 치료를 하였다.
$$ Y_{ijt} = \alpha + \beta_1 T_{1it} + b_1 D_{1ij} + b_2 (T_{1it} \cdot D_{1ij} ) + \mathbf{X}^\prime _{ijt} \boldsymbol{\delta} + \sum (\gamma_d N^T_{dit}) + \sum (\phi_d N_{dit}) + u_i + e_{ijt} $$
여기서 $ i $ 는 학교, $ j $ 는 각 학생, $ t $ 는 시간대이다. $ \mathbf{X} $ 는 기타 통제변수, $ e $ 는 오차이다. 앞서 고정효과에 대해 설명할 때 처럼 학교별로 나눴기 때문에 완벽한 무작위 배정이 이뤄지지 않았고, 이때 발생한 고정효과를 $ u $ 로 설정하고 회귀 모델에 적용하였다. 나머지는 외부효과를 처리하기 위한 변수로 아래 설명한다.
이 실험에서는 크게 두 가지 외부효과가 발생했는데, 실제 구충제를 먹지 않아도 자신 주변에 구충제를 먹은 사람이 있다면 감염될 확률이 낮아지기 때문었다. 하나는 결석으로 인한 학교 내 외부효과(externalities within treated schools)이고, 또 하나는 아이들의 집에서 일어난, 즉 학교 외 외부효과(externalities across schools from treatment to control schools)이다.
학교 외 외부효과는 아이들이 비슷한 지역에 살아도 다른 학교로 배정되는 경우에 발생할 수 있었다. 두 아이의 학교가 달라 어떤 아이는 구충제를 받고, 어떤 아이는 구충제를 못 받았는데, 비슷한 지역에 살아 구충제를 받지 못한 아이도 구충제를 받은 아이 덕분에 기생충 감염 확률이 낮아진다면 이는 처치 효과가 과소평가될 위험이 있는 것이다. 따라서 이를 위해 주변 인구를 측정하여 $N^T_{dit} $ 과 $N_{dit} $ 를 고려하였다. $N^T_{dit} $는 학교 $i $ 에서 거리 $ d $ 이내 구충제를 받고 있는 학교의 학생수이고, $ N_{dit} $ 는 학교 $ i $ 에서 거리 $ d $ 이내 학교의 모든 학생 수이다. 학교 규모가 클수록 기생충 전파 위험이 높아질 수 있기에 $ N_{dit} $ 를 넣었고, $ N^T_{dit} $ 를 넣어 주변 처치받은 아이들의 영향을 고려한 것이다.
학교 내 외부효과는 아이들의 결석율이 높아 발생하였는데, 구충제를 복용해야 할 때 결석하여 못 받은 학생이 있었고, 때문에 처치 집단에서의 효과가 과소평가될 위험이 있었다. 이를 위해 $ T_1 $, $D_1 $ 이라는 더미변수를 활용한다. $ T_1 $ 은 학교가 처치 집단인가에 대한 더미변수이고, $ D_1 $ 은 실제 아이의 처치 여부에 대한 더미변수이다. 계산해보면 처치 집단에 속하지만 실제로는 결석하여 처치를 못 받은 경우, $ T_1 = 1 $, $ D_1 = 0 $ 이기 때문에 $ \beta_1 $ 만 남게 된다. 만약 실제로도 처치를 받았다면 $ \beta_1, b_1, b_2 $ 모두 남는다. 처치 집단도 아니고, 따라서 처치 받지도 않았다면 모든 효과가 사라진다. 즉 $ \beta_1 $ 은 처치 집단에 속함으로써 나타나는 외부효과이다.
'Economics > Causal Inference' 카테고리의 다른 글
[Causal Inference] 누락 편의(omitted variable bias) (0) | 2025.04.01 |
---|---|
[Causal Inference] 최소제곱법(OLS)을 통한 회귀분석(regression analysis) (0) | 2025.04.01 |
[Causal Inference] 무작위 실험연구(randomized experiments) (0) | 2025.03.18 |
[Causal Inference] 인과추론(causal inference) 및 실험연구(experiments)와 관찰연구(observational study) (0) | 2025.03.10 |