기본모델 및 조건
기본 모델은 다음과 같다.
$$ Y_i = \beta_0 + \alpha D_i + \beta_1 X_{i1} + \cdots + \beta_k X_{ik} + \epsilon_i $$
추정하고자 하는 것이 $ \alpha $ 이고, 이를 최소제곱법을 통해 $ \hat{\alpha} $ 로 추정한다고 하자. 최소제곱법을 이용하기에 각 회귀계수는 불편성(unbiasedness), 일관성(consistency), 점근 정규성(asymptotic normality)을 만족한다. 즉 $ E(\hat{\beta} \mid X) = \beta $ 이고, $ \hat{\beta} \overset{p}{\to} \beta $ 이며, 표본이 충분히 클 때 $ \hat{\beta} \sim N $ 이다. 이 조건들은 $ \epsilon \overset{\mathrm{i.i.d.}}{\sim} N(0, \sigma^2) $ 에서 나온다.
이 때 회귀계수인 $ \hat{\alpha} $ 는 다른 모든 조건이 동일할 때(cetris paribus) $ D_i $ 가 $ Y_i $ 에 미치는 영향이다.
최소제곱법을 이용하여 회귀모델을 만들 때는 다음과 같은 가정이 만족되어야 우수한 선형 불편 추정량(BLUE, best linear unbiased estimator)이다.
- 모델이 모수에 대해 선형적(linear in parameters)이어야 한다.
- 무작위 표본추출(random sampling)이어야 한다.
- 완전 다중공선성이 없어야(no perfect collinearity) 한다.
- 오차항의 조건부기댓값이 $0$ (zero conditinoal mean) 이어야 한다.
- 등분산성(homoskedasiticity)을 만족해야 한다.
추가로 다음 가정이 만족한다면 최소제곱추정량은 정규분포를 따르게 된다.
- 오차항이 평균이 $0$, 분산이 $ \sigma^2 $ 인 정규분포를 따른다.
위 가정이 만족한다면 $ t $ 통계량과 $ F $ 통계량은 실제 $ t $-분포와 $ F $-분포를 따른다. 단 추가 가정이 만족하지 않더라도 표본 크기가 충분히 크다면 중심극한 정리에 의해 $ t $ 통계량과 $ F $ 통계량은 근사적으로 $ t $-분포와 $ F $-분포를 따른다.
고려하고 있어야 할 것은 가정 덕분에 최소제곱추정량이 불편 추정량이라는 것, 표본 크기 $ n $ 에 대해 $ \hat{\beta}_j $ 가 확률분포를 갖는다는 것, 불편성으로 인해 이 확률분포의 평균은 $ \beta_j $ 라는 것이다. 또한 일치성에 의해 표본 크기가 커질수록 $ \hat{\beta}_j $ 의 분포는 $ \beta_j $ 에 더 조밀하게 모이게 된다.
일치성을 식을 통해 보면 다음과 같다.
$$ y_i = \beta_0 + \beta_1 x_{i1} + u_i $$
$$ \hat{\beta}_1 = \beta_1 + \frac{(n-1) \sum_{i=1}^n (x_{i1} - \bar{x}_1) u_i}{(n-1)\sum_{i=1}^n (x_{i1} - \bar{x}_1)^2} $$
$ \hat{\beta}_1 $ 의 추정량의 편향은 대수의 법칙에 따라 분모는 $ \mathrm{Var}(x_1) $ 에 근접하고, 분자는 $ \mathrm{Cov}(x_1, u) $ 에 근접한다. 따라서 $ \mathrm{Cov}(x_1, u) = 0 $ 이라는 가정에 의해 $ \underset{n \to \infty}{\lim} \hat{\beta}_1 = \beta_1 $ 이 된다.
비선형 모델 (Nonlinear Model)
아래와 같이 비선형항(nonlinear term)으로 이루어져 있어도 회귀계수에 대해서는 모델이 선형적이기 때문에 기존 최소제곱법(OLS)을 사용 가능하다.
$$ Y_i = \beta_0 + \beta_1 X_i + \beta_2 X_i^2 + \beta_3 X_i^3 + \epsilon_i $$
단 다항식의 항이 많아질 경우 설명변수간 상관관계로 인해 다중공선성(multicolinearity) 문제가 발생할 수 있으니 주의해야 한다.
로그 사양 (Log Specification)
로그를 이용하여 데이터를 변환하는데, 종속변수나 독립변수에 씌워준다. 로그를 이용하면 데이터의 분포가 왼쪽으로 쏠려있을 때, 즉 왜도가 음수일 때 좀 더 정규분포에 가깝게 왜도를 변형해줄 수 있고, 회귀계수에 대한 해석이 용이해진다.
예를 들어 $ Y $ 를 변형하여 $ \ln Y $ 로 사용한다고 하면, $ \beta_i $ 에 대한 해석이 $ X_i $ 가 한 단위 변할 때 $ Y $ 가 몇 % 변하는지를 나타낸다고 해석할 수 있다. 반대로 $ X_ i $ 에 로그를 씌워 $ \ln X_i $ 를 회귀식에서 사용하면 $ \beta_i $ 에 대한 해석을 $ X_i $ 가 $1$% 변할 때 $ Y $ 가 얼마나 변하는지로 해석할 수 있다. 둘 모두에 로그를 씌워주면 $ X_i $ 가 $1$% 변할 때 $ Y $ 가 몇 % 변하는지로 해석할 수 있다. 즉 탄력성(elasticity) 개념으로 해석 가능하다는 장점이 있다.
회귀분석
단순회귀모형을 다음과 같다고 해보자.
$$ y = \beta_0 + \beta_1 x + \epsilon $$
이때 최소제곱법을 활용하여 회귀계수를 추정하면 다음과 같다.
$$ \hat{\beta}_1 = \frac{\mathrm{Cov}(x, y)}{\mathrm{Var}(x)}, \qquad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} $$
그렇다면 추정된 모델은 다음과 같다.
$$ \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x $$
이때 회귀계수로 추정 가능한 부분과 추정 불가능한 부분으로 나눠 다음과 같이 사용하기도 한다.
$$ SSR = \sum (y_i - \hat{y}_i)^2 $$
$$ SSE = \sum ( \hat{y}_i - \bar{y})^2 $$
여기서 $ SSE $ 는 설명가능한 제곱합(explained sum of squares)로, 일반적으로는 $ SSR $ 로 쓰고, 여기서 $ SSR $ 은 잔차제곱합(sum of squared residuals)로 일반적으로는 $ SSE $ 로 쓴다. 어떤 것을 약자로 쓰느냐에 따라 갈리니 주의해야 한다.
회귀계수 $ \beta_1 $ 에 대한 검정은 검정통계량 $ t_n = \frac{\hat{\beta}_1}{\mathrm{SE}(\hat{\beta}_1)} $ 을 이용해 $t$ 검정을 하며(참고링크), 회귀식 자체에 대한 검정은 검정통계량 $ F = \frac{(SSR_r - SSR_{ur})/q}{SSR_{ur}/(n-k-1)} $ 을 이용해 F 검정을 한다. 여기서 $ SSR_r $ 은 제한된(restricted) 모형의 잔차제곱합이고, $SSR_{ur} $ 은 제한되지 않은(unrestricted) 모형의 잔차제곱합이다(참고링크).
'Economics > Causal Inference' 카테고리의 다른 글
[Causal Inference] 측정오차(measurement error) (0) | 2025.04.09 |
---|---|
[Causal Inference] 누락 편의(omitted variable bias) (0) | 2025.04.01 |
[Causal Inference] 무작위 배정(randomized assignment)에서 고려할 사항 (0) | 2025.03.25 |
[Causal Inference] 무작위 실험연구(randomized experiments) (0) | 2025.03.18 |
[Causal Inference] 인과추론(causal inference) 및 실험연구(experiments)와 관찰연구(observational study) (0) | 2025.03.10 |