기본모델 및 조건
기본 모델은 다음과 같다.
$$ Y_i = \beta_0 + \alpha D_i + \beta_1 X_{i1} + \cdots + \beta_k X_{ik} + \epsilon_i $$
추정하고자 하는 것이 $ \alpha $ 이고, 이를 최소제곱법을 통해 $ \hat{\alpha} $ 로 추정한다고 하자. 최소제곱법을 이용하기에 각 회귀계수는 불편성(unbiasedness), 일관성(consistency), 점근 정규성(asymptotic normality)을 만족한다. 즉 $ E(\hat{\beta} \mid X) = \beta $ 이고, $ \hat{\beta} \overset{p}{\to} \beta $ 이며, 표본이 충분히 클 때 $ \hat{\beta} \sim N $ 이다. 이 조건들은 $ \epsilon \overset{\mathrm{i.i.d.}}{\sim} N(0, \sigma^2) $ 에서 나온다.
이 때 회귀계수인 $ \hat{\alpha} $ 는 다른 모든 조건이 동일할 때(cetris paribus) $ D_i $ 가 $ Y_i $ 에 미치는 영향이다.
비선형 모델 (Nonlinear Model)
아래와 같이 비선형항(nonlinear term)으로 이루어져 있어도 회귀계수에 대해서는 모델이 선형적이기 때문에 기존 최소제곱법(OLS)을 사용 가능하다.
$$ Y_i = \beta_0 + \beta_1 X_i + \beta_2 X_i^2 + \beta_3 X_i^3 + \epsilon_i $$
단 다항식의 항이 많아질 경우 설명변수간 상관관계로 인해 다중공선성(multicolinearity) 문제가 발생할 수 있으니 주의해야 한다.
로그 사양 (Log specification)
로그를 이용하여 데이터를 변환하는데, 종속변수나 독립변수에 씌워준다. 로그를 이용하면 데이터의 분포가 왼쪽으로 쏠려있을 때, 즉 왜도가 음수일 때 좀 더 정규분포에 가깝게 왜도를 변형해줄 수 있고, 회귀계수에 대한 해석이 용이해진다.
예를 들어 $ Y $ 를 변형하여 $ \ln Y $ 로 사용한다고 하면, $ \beta_i $ 에 대한 해석이 $ X_i $ 가 한 단위 변할 때 $ Y $ 가 몇 % 변하는지를 나타낸다고 해석할 수 있다. 반대로 $ X_ i $ 에 로그를 씌워 $ \ln X_i $ 를 회귀식에서 사용하면 $ \beta_i $ 에 대한 해석을 $ X_i $ 가 $1$% 변할 때 $ Y $ 가 얼마나 변하는지로 해석할 수 있다. 둘 모두에 로그를 씌워주면 $ X_i $ 가 $1$% 변할 때 $ Y $ 가 몇 % 변하는지로 해석할 수 있다. 즉 탄력성(elasticity) 개념으로 해석 가능하다는 장점이 있다.
회귀분석
단순회귀모형을 다음과 같다고 해보자.
$$ y = \beta_0 + \beta_1 x + \epsilon $$
이때 최소제곱법을 활용하여 회귀계수를 추정하면 다음과 같다.
$$ \hat{\beta}_1 = \frac{\mathrm{Cov}(x, y)}{\mathrm{Var}(x)}, \qquad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} $$
그렇다면 추정된 모델은 다음과 같다.
$$ \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x $$
이때 회귀계수로 추정 가능한 부분과 추정 불가능한 부분으로 나눠 다음과 같이 사용하기도 한다.
$$ SSR = \sum (y_i - \hat{y}_i)^2 $$
$$ SSE = \sum ( \hat{y}_i - \bar{y})^2 $$
여기서 $ SSE $ 는 설명가능한 제곱합(explained sum of squares)로, 일반적으로는 $ SSR $ 로 쓰고, 여기서 $ SSR $ 은 잔차제곱합(sum of squared residuals)로 일반적으로는 $ SSE $ 로 쓴다. 어떤 것을 약자로 쓰느냐에 따라 갈리니 주의해야 한다.
회귀계수 $ \beta_1 $ 에 대한 검정은 검정통계량 $ t_n = \frac{\hat{\beta}_1}{\mathrm{SE}(\hat{\beta}_1)} $ 을 이용해 $t$ 검정을 하며(참고링크), 회귀식 자체에 대한 검정은 검정통계량 $ F = \frac{(SSR_r - SSR_{ur})/q}{SSR_{ur}/(n-k-1)} $ 을 이용해 F 검정을 한다. 여기서 $ SSR_r $ 은 제한된(restricted) 모형의 잔차제곱합이고, $SSR_{ur} $ 은 제한되지 않은(unrestricted) 모형의 잔차제곱합이다(참고링크).
'Economics > Causal Inference' 카테고리의 다른 글
[Causal Inference] 누락 편의(omitted variable bias) (0) | 2025.04.01 |
---|---|
[Causal Inference] 무작위 배정(randomized assignment)에서 고려할 사항 (0) | 2025.03.25 |
[Causal Inference] 무작위 실험연구(randomized experiments) (0) | 2025.03.18 |
[Causal Inference] 인과추론(causal inference) 및 실험연구(experiments)와 관찰연구(observational study) (0) | 2025.03.10 |