Loading [MathJax]/jax/output/CommonHTML/jax.js

누락 편의

 

누락 편의란 통제가 필요한 변수가 통제되지 않았을 때 발생하는 편향(bias)를 의미한다. 예를 들어, XY 에 미치는 인과 효과를 추정하려고 할 때, 혼동요인인 변수 W 가 존재하는 경우를 생각해보자. 실제 XY 에 미치는 인과 효과를 추정하기 위해서는 변수 W 를 통제, 즉 회귀식에 독립 변수로 포함한 상태에서 측정해야 한다. 그러나 설계 단계에서 W 를 고려하지 못했더나, 데이터를 확보하지 못해 W 가 회귀모형에서 누락되었다고 가정하자.

이러한 상황에서의 회귀모형을 다음과 같이 설정해보자.

Yi=β0+β1Xi+ϵ1i

반면 W 를 잘 파악하고 회귀식에 포함한 모형을 다음과 같이 설정해보자.

Yi=γ0+γ1Xi+γ2Wi+ϵ2i

그렇다면 먼저 설정한 모형은 X 의 회귀계수 β1 을 추정하면 β1에는 W 의 영향도 포함되어 있다. 즉 인과관계(causal association)와 비인과관계(noncausal association)가 혼합된 값이다. 반면 W 가 고려된 모델은 W 에 대한 인과관계가 따로 추출되어있기 때문에, 즉 통제되었기 때문에 또 다른 혼동요인이 없다는 가정하에 X 의 회귀계수 γ1 은 인과관계만이 남게 된다.

이때 처음 설정한 모델에서 β1 이 인과관계뿐 아니라 비인과관계가 혼합되어 있기에 편향이 발생하게 되고, 이를 변수가 누락되어 발생한 편의라 하여 누락 편의(OVB, omitted variable bias)라 한다.

 


계산

 

위 모델에서 β0=γ0, ϵ1i=γ2Wi+ϵ2i 라는 점을 감안하여 생각해보자.

이제 β1 의 추정량 ˆβ1 은 다음과 같다.

ˆβ1=Cov(Y,X)Var(X)=E(XY)E(X)E(Y)Var(X)

여기서 올바른 회귀식 Y=γ0+γ1X+γ2W+ϵ2 를 감안하여 계산해보면 다음과 같다.

ˆβ1=γ1+γ2Cov(W,X)Var(X)

Open Proof

ˆβ1=E(XY)E(X)E(Y)Var(X)

=Cov(γ0+γ1X+γ2W+ϵ2,X)Var(X)

=γ1E(X2)γ1E(X)2+γ2E(XW)γ2E(X)E(W)+E(ϵ2X)E(X)E(ϵ2)Var(X)

=γ1+γ2Cov(W,X)Var(X)

여기서 원래 기대는 ˆβ1=γ1 이어야 하는데, 부가적인 것이 있기 때문에 부가적인 γ2Cov(W,X)Var(X) 가 누락편의이다.

 

애스터로이드