종속변수의 측정오차 (Measurement Error of Dependent Variable)
종속변수를 측정할 때 오차가 있을 수 있다. 예를 들어서 소득에 미치는 영향을 연구하려 하는데, 이때 데이터를 설문지를 통해 얻었다고 해보자. 그럼 사람들이 자신의 소득을 실제 소득과 다르게 말할 여지가 있다.
실제 회귀식은 아래와 같다.
$$ y^* = \beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k + \epsilon $$
여기서 $ y^* $ 는 실제 소득(true)이다. 그런데 사람들이 실제로는 다르게 대답하였고, 이를 $ y $ 라 하면 $ y $ 는 관측 가능한 소득(reported)이다. 그렇다면 측정오차(measurement errors)는 다음과 같다.
$$ e_0 = y - y^* $$
다시 확인하면 회귀식은 $ y $ 에 대해 다음과 같다.
$$ y^* = \beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k + \epsilon + e_ 0 $$
여기서 오차항은 $ \epsilon + e_0 $ 가 된다.
이 경우 측정오차가 설령 설명변수들과 통계적으로 독립이어서 OLS 추정치가 불편성과 일치성을 만족한다고 하더라도 다음과 같이 분산이 커지게 된다.
$$ \mathrm{Var}(\epsilon + e_0) = \sigma^2_\epsilon + \sigma^2_0 > \sigma^2_\epsilon $$
여기서 $ \sigma^2_\epsilon $ 은 $ \epsilon $ 의 분산이고 $ \sigma^2_0 $ 은 $ e_0 $ 의 분산이다.
설명변수의 측정오차 (Measurement Error of Explanatory Variable)
종속변수가 아니라 설명변수에 측정오차가 있을 수 있다. 즉 관측한 설명변수의 데이터와 실제 설명변수의 데이터가 다를 수 있다.
실제 설명변수로 세운 회귀식이 다음과 같다고 가정하자.
$$ y = \beta_0 + \beta_1 x_1^* + \epsilon $$
그러나 실제 관측된(reported) 데이터는 다음과 같다.
$$ x_1 = x_1^* + e_1 $$
여기서 $ e_1 $ 은 측정오차(measurement errors)이다.
그렇다면 회귀식은 다음과 같다.
$$ y = \beta_0 + \beta_1 x_1 - \beta_1 e_1 + \epsilon $$
만약 $ x_1 $ 과 $ e_1 $ 이 독립이라 가정하자. 그래도 앞선 종속변수의 측저오차와 마찬가지로 다음과 같이 분산에 영향을 준다.
$$ \mathrm{Var}(\epsilon - \beta_1 e_1) = \sigma^2_\epsilon + \beta_1 \sigma^2_1 \geq \sigma^2_\epsilon $$
여기서 $ \sigma^2_\epsilon $ 은 $ \epsilon $ 의 분산이고 $ \sigma^2_1 $ 은 $ e_1 $ 의 분산이다.
만약 $ x_1^* $ 과 $ e_1 $ 이 독립이라 가정하자. 그렇다면 $ x_1 = x_1^* + e_1 $ 이기 때문에 $ x_1 $ 과 $ e_1 $ 은 독립일 수 없다. 따라서 다음과 같다.
$$ \mathrm{Cov}(x_1, e_1) \neq 0 $$
이때 $ \beta_1 $ 을 추정해보자.
$$ \hat{\beta}_1 = \beta_1 + \frac{\mathrm{Cov}(\epsilon - \beta_1 e_1, x_1)}{\mathrm{Var}(x_1)} $$
이때 $ \mathrm{Cov}(\epsilon - \beta_1 e_1, x_1) \neq 0 $ 이므로 편향이 발생한다.
풀어보면 다음과 같다.
$$ \hat{\beta}_1 = \beta_1 \left(\frac{\sigma^2_{x_1^*}}{\sigma^2_{x_1^*} + \sigma^2_1} \right) $$
$ \hat{\beta}_1 = \beta_1 + \frac{\mathrm{Cov}(\epsilon - \beta_1 e_1, x_1)}{\mathrm{Var}(x_1)} $
여기서 분자를 확인하면 다음과 같다.
$ \mathrm{Cov}(\epsilon - \beta_1 e_1, x_1) = - \beta_1 \mathrm{Cov}(e_1, x_1) $
분모는 다음과 같다.
$ \mathrm{Var}(x_1) = \mathrm{Var}(x_1^*) + \mathrm{Var}(e_1) $
$ = \sigma^2_{x_1^*} + \sigma^2_1 $
적용하면 다음과 같다.
$ \hat{\beta}_1 = \beta_1 \beta_1 \left(1 - \frac{\sigma^2_1}{\sigma^2_{x_1^*} + \sigma^2_1} \right) $
$ = \beta_1 \left(\frac{\sigma^2_{x_1^*}}{\sigma^2_{x_1^*} + \sigma^2_1} \right) $
이때 $ \sigma^2_1 \leq \sigma^2_{x_1^*} + \sigma^2_1 $ 이므로 $ \beta_1 $ 이 과소평가된다고 할 수 있다. 즉 약화 편향(attenuation bias)이다.
'Economics > Causal Inference' 카테고리의 다른 글
[Causal Inference] 도구변수(IV, instrumental variable) (0) | 2025.04.09 |
---|---|
[Causal Inference] 동시성(simultaneity)과 역인과성(reverse cauality) (0) | 2025.04.09 |
[Causal Inference] 누락 편의(omitted variable bias) (0) | 2025.04.01 |
[Causal Inference] 최소제곱법(OLS)을 통한 회귀분석(regression analysis) (0) | 2025.04.01 |
[Causal Inference] 무작위 배정(randomized assignment)에서 고려할 사항 (0) | 2025.03.25 |