누락 편의
누락 편의란 통제가 필요한 변수가 통제되지 않았을 때 발생하는 편향(bias)를 의미한다. 예를 들어, $ X $ 가 $ Y $ 에 미치는 인과 효과를 추정하려고 할 때, 혼동요인인 변수 $ W $ 가 존재하는 경우를 생각해보자. 실제 $ X $ 가 $ Y $ 에 미치는 인과 효과를 추정하기 위해서는 변수 $ W $ 를 통제, 즉 회귀식에 독립 변수로 포함한 상태에서 측정해야 한다. 그러나 설계 단계에서 $ W $ 를 고려하지 못했더나, 데이터를 확보하지 못해 $ W $ 가 회귀모형에서 누락되었다고 가정하자.
이러한 상황에서의 회귀모형을 다음과 같이 설정해보자.
$$ Y_i = \beta_0 + \beta_1 X_i + \epsilon_{1i} $$
반면 $ W $ 를 잘 파악하고 회귀식에 포함한 모형을 다음과 같이 설정해보자.
$$ Y_i = \gamma_0 + \gamma_1 X_i + \gamma_2 W_i + \epsilon_{2i} $$
그렇다면 먼저 설정한 모형은 $ X $ 의 회귀계수 $ \beta_1 $ 을 추정하면 $ \beta_1 $에는 $ W $ 의 영향도 포함되어 있다. 즉 인과관계(causal association)와 비인과관계(noncausal association)가 혼합된 값이다. 반면 $ W $ 가 고려된 모델은 $ W $ 에 대한 인과관계가 따로 추출되어있기 때문에, 즉 통제되었기 때문에 또 다른 혼동요인이 없다는 가정하에 $ X $ 의 회귀계수 $ \gamma_1 $ 은 인과관계만이 남게 된다.
이때 처음 설정한 모델에서 $ \beta_1 $ 이 인과관계뿐 아니라 비인과관계가 혼합되어 있기에 편향이 발생하게 되고, 이를 변수가 누락되어 발생한 편의라 하여 누락 편의(OVB, omitted variable bias)라 한다.
계산
위 모델에서 $ \beta_0 = \gamma_0 $, $ \epsilon_{1i} = \gamma_2 W_i + \epsilon_{2i} $ 라는 점을 감안하여 생각해보자.
이제 $ \beta_1 $ 의 추정량 $ \hat{\beta}_1 $ 은 다음과 같다.
$$ \hat{\beta}_1 = \frac{\mathrm{Cov}(Y, X)}{\mathrm{Var}(X)} = \frac{E(XY) - E(X)E(Y)}{\mathrm{Var}(X)} $$
여기서 올바른 회귀식 $ Y = \gamma_0 + \gamma_1 X + \gamma_2 W + \epsilon_2 $ 를 감안하여 계산해보면 다음과 같다.
$$ \hat{\beta}_1 = \gamma_1 + \gamma_2 \frac{\mathrm{Cov}(W, X)}{\mathrm{Var}(X)} $$
$ \hat{\beta}_1 = \dfrac{E(XY) - E(X)E(Y)}{\mathrm{Var}(X)} $
$ = \dfrac{\mathrm{Cov}(\gamma_0 + \gamma_1 X + \gamma_2 W + \epsilon_2, X)}{\mathrm{Var}(X)} $
$ = \dfrac{\gamma_1 E(X^2) - \gamma_1 E(X)^2 + \gamma_2 E(XW) - \gamma_2 E(X)E(W) + E(\epsilon_2 X) - E(X) E(\epsilon_2)}{\mathrm{Var}(X)} $
$ = \gamma_1 + \gamma_2 \dfrac{\mathrm{Cov}(W, X)}{\mathrm{Var}(X)} $
여기서 원래 기대는 $ \hat{\beta}_1 = \gamma_1 $ 이어야 하는데, 부가적인 것이 있기 때문에 부가적인 $ \gamma_2 \dfrac{\mathrm{Cov}(W, X)}{\mathrm{Var}(X)} $ 가 누락편의이다.
'Economics > Causal Inference' 카테고리의 다른 글
[Causal Inference] 동시성(simultaneity)과 역인과성(reverse cauality) (0) | 2025.04.09 |
---|---|
[Causal Inference] 측정오차(measurement error) (0) | 2025.04.09 |
[Causal Inference] 최소제곱법(OLS)을 통한 회귀분석(regression analysis) (0) | 2025.04.01 |
[Causal Inference] 무작위 배정(randomized assignment)에서 고려할 사항 (0) | 2025.03.25 |
[Causal Inference] 무작위 실험연구(randomized experiments) (0) | 2025.03.18 |
누락 편의
누락 편의란 통제가 필요한 변수가 통제되지 않았을 때 발생하는 편향(bias)를 의미한다. 예를 들어, X 가 Y 에 미치는 인과 효과를 추정하려고 할 때, 혼동요인인 변수 W 가 존재하는 경우를 생각해보자. 실제 X 가 Y 에 미치는 인과 효과를 추정하기 위해서는 변수 W 를 통제, 즉 회귀식에 독립 변수로 포함한 상태에서 측정해야 한다. 그러나 설계 단계에서 W 를 고려하지 못했더나, 데이터를 확보하지 못해 W 가 회귀모형에서 누락되었다고 가정하자.
이러한 상황에서의 회귀모형을 다음과 같이 설정해보자.
Yi=β0+β1Xi+ϵ1i
반면 W 를 잘 파악하고 회귀식에 포함한 모형을 다음과 같이 설정해보자.
Yi=γ0+γ1Xi+γ2Wi+ϵ2i
그렇다면 먼저 설정한 모형은 X 의 회귀계수 β1 을 추정하면 β1에는 W 의 영향도 포함되어 있다. 즉 인과관계(causal association)와 비인과관계(noncausal association)가 혼합된 값이다. 반면 W 가 고려된 모델은 W 에 대한 인과관계가 따로 추출되어있기 때문에, 즉 통제되었기 때문에 또 다른 혼동요인이 없다는 가정하에 X 의 회귀계수 γ1 은 인과관계만이 남게 된다.
이때 처음 설정한 모델에서 β1 이 인과관계뿐 아니라 비인과관계가 혼합되어 있기에 편향이 발생하게 되고, 이를 변수가 누락되어 발생한 편의라 하여 누락 편의(OVB, omitted variable bias)라 한다.
계산
위 모델에서 β0=γ0, ϵ1i=γ2Wi+ϵ2i 라는 점을 감안하여 생각해보자.
이제 β1 의 추정량 ˆβ1 은 다음과 같다.
ˆβ1=Cov(Y,X)Var(X)=E(XY)−E(X)E(Y)Var(X)
여기서 올바른 회귀식 Y=γ0+γ1X+γ2W+ϵ2 를 감안하여 계산해보면 다음과 같다.
ˆβ1=γ1+γ2Cov(W,X)Var(X)
ˆβ1=E(XY)−E(X)E(Y)Var(X)
=Cov(γ0+γ1X+γ2W+ϵ2,X)Var(X)
=γ1E(X2)−γ1E(X)2+γ2E(XW)−γ2E(X)E(W)+E(ϵ2X)−E(X)E(ϵ2)Var(X)
=γ1+γ2Cov(W,X)Var(X)
여기서 원래 기대는 ˆβ1=γ1 이어야 하는데, 부가적인 것이 있기 때문에 부가적인 γ2Cov(W,X)Var(X) 가 누락편의이다.
'Economics > Causal Inference' 카테고리의 다른 글
[Causal Inference] 동시성(simultaneity)과 역인과성(reverse cauality) (0) | 2025.04.09 |
---|---|
[Causal Inference] 측정오차(measurement error) (0) | 2025.04.09 |
[Causal Inference] 최소제곱법(OLS)을 통한 회귀분석(regression analysis) (0) | 2025.04.01 |
[Causal Inference] 무작위 배정(randomized assignment)에서 고려할 사항 (0) | 2025.03.25 |
[Causal Inference] 무작위 실험연구(randomized experiments) (0) | 2025.03.18 |