두 회귀직선 검정

 

어떤 회귀직선 두 가지가 같은 회귀직선인가 궁금할 수 있다. 예를 들어서 서울에서 가구수에 따른 쓰레기 배출량을 선형회귀로 적합하고, 부산에서도 똑같이 가구수에 따른 쓰레기 배출량을 선형회귀로 적합했다고 해보자. 근데 만약 서울과 부산의 회귀직선이 같다면, 두 모집단을 합쳐 하나의 모집단으로 만들 수 있다.

두 모집단에 대한 회귀모형을 다음과 같이 나타내자.

$$ y_{ij} = \beta_{0i} + \beta_{1i} x_{ij} + \epsilon_{ij} , \qquad ( \epsilon_{ij} \sim N(0, \sigma^2)) $$

여기서 $ i =1, 2 $ 는 모집단을 의미하고 $ j $ 는 각 모집단에서의 데이터를 의미한다. 각 모집단에서 $ n_1, $, $n_2 $ 개의 표본을 선택했다고 가정하자. 이 모형을 완전모형(full model)이라 한다. 따라서 다음과 같이 모집단의 조건부 평균을 추정해볼 수 있다.

$$ E(y_{1j} \mid x_{1j}) = \beta_{01} + \beta_{11} x_{1j} $$

$$ E(y_{2j} \mid x_{2j}) = \beta_{02} + \beta_{12} x_{2j} $$

두 회귀직선이 동일하다면 $ \beta_{01} = \beta_{02} $ 이고 $ \beta_{11} = \beta_{12} $ 이므로 다음과 같이 가설을 설정할 수 있다.

$$ H_0 : (\beta_{01} = \beta_{02}) \land (\beta_{11} = \beta_{12}), \qquad H_a : (\beta_{01} \neq \beta_{02}) \lor (\beta_{11} \neq \beta_{12}) $$

귀무가설 $ H_0 $ 가 성립할 경우 완전모형을 다음과 같은 축소모형(reduced model)로 바꿀 수 있다.

$$ y_{ij} = \beta_0 + \beta_1 x_{ij} + \epsilon_{ij} , \qquad (\epsilon_{ij} \sim N(0, \sigma^2)) $$

검정절차는 아래와 같다. 먼저 완전모형을 적합시키고 완전모형의 잔차제곱합 $ SSE_F $ 를 구한다.

$$ SSE_i = \sum_{j=1}^{n_i} (y_{ij} - \hat{y}_{ij})^2 = \sum_{j=1}^{n_i} ( y_{ij} - \hat{\beta}_{0i} - \hat{\beta}_{1i} x_{ij})^2 $$

그리고 이제 $ \hat{\beta}_{0i} $, $\hat{\beta}_{1i} $ 는 모집단 $ i $ 에 적합한 최소제곱추정값이다. 따라서 다음과 같다.

$$ SSE_F = SSE_1 + SSE_2 $$

이제 축소모형을 적합시키고 축소모형의 잔차제곱합 $ SSE_R $ 을 구한다.

$$ SSE_R = \sum_{i=1}^2 \sum_{j=1}^{n_i} (y_{ij} - \hat{y}_{ij})^2 = \sum_{i=1}^2 \sum_{j=1}^{n_i} ( y_{ij} - \hat{\beta}_{0i} - \hat{\beta}_{1i} x_{ij})^2 $$

여기서 $ \hat{beta}_0 $, $\hat{\beta}_1 $ 은 두 모집단의 표본을 합쳐서 회귀모형을 적합한 최소제곱추정값이다.

이제 다음과 같이 검정통계량의 값을 구한다. $ df_F $ 와 $ df_R $ 을 각각 $ SSE_F $ 와 $ SSE_R $ 에 대응되는 자유도라 하면 검정통계량 $ F_0 $ 는 다음과 같다.

$$ F_0 = \frac{SSE_R - SSE_F}{df_R - df_F} / \frac{SSE_F}{df_F} $$

만약 유의수준 $ \alpha $ 에 대하여 $ F_0 > F_\alpha $ 라면 귀무가설을 기각하고, 아니라면 귀무가설을 채택한다. 즉 두 회귀직선이 같다고 결론내릴 수 있다.

참고로 $ df_R = (n_1 - 1) + (n_2 - 1) $ 이고, $ df_F = (n_1 - 2) + (n_2 - 2) $ 이므로, $ df_R - df_F = 2 $ 이다. 즉 $ F_0 $ 는 분자의 자유도 $ 2 $, 분모의 자유도 $ n_1 + n_2 - 4 $ 인 $ F $ 분포를 따른다.

 


두 기울기 검정

 

앞선 검정은 회귀직선 자체에 대한 검정이었다. 그런데 회귀직선에서 절편은 다르지만 기울기는 같을 수도 있다. 이를 검정하기 위한 가설은 다음과 같다.

$$ H_0 : \beta_{11} = \beta_{12} , \qquad H_a : \beta_{11} \neq \beta_{12} $$

따라서 $ \hat{\beta}_{11} - \hat{\beta}_{12} $ 가 점추정량이 되므로 검정통계량 $ t_0 $는 다음과 같다.

$$ t_0 = \frac{\hat{\beta}_{11} - \hat{\beta}_{12}}{\sqrt{\widehat{\mathrm{Var}} (\hat{\beta}_{11} - \hat{\beta}_{12})}} $$

여기서 $ t_0 $ 의 자유도 $ df = (n_1 - 2) + ( n_2 - 2) $ 이다.

먼저 $ \widehat{\mathrm{Var}} (\hat{\beta}_{11} - \hat{\beta}_{12}) $ 를 구해보자.

$$ \widehat{\mathrm{Var}} (\hat{\beta}_{11} - \hat{\beta}_{12}) = \frac{\sigma^2}{\sum (x_{1j} - \bar{x}_1)^2} + \frac{\sigma^2}{\sum (x_{2j} - \bar{x}_2)^2} $$

여기서 $ \sigma^2 $ 은 $ MSE_F $ 로 추정할 수 있으므로 다음과 같다.

$$ \widehat{\mathrm{Var}} (\hat{\beta}_{11} - \hat{\beta}_{12}) = MSE_F \left[ \frac{1}{\sum (x_{1j} - \bar{x}_1)^2} + \frac{1}{\sum (x_{2j} - \bar{x}_2)^2} \right] $$

이렇게 구한 분산을 이용하여 $ t_0 $ 를 계산하고, 유의수준 $ \alpha $ 에 대해 $ \lvert t_0 \rvert > t_{\alpha / 2} $ 이면 귀무가설을 기각하고, 아니라면 귀무가설을 기각하지 않는다.

 

애스터로이드