분산분석

 

다중회귀분석의 분산분석도 역시 단순회귀분석의 분산분석과 유사하게 진행된다. 결국 총변동인 $ SST $ 와 설명가능한 $ SSR $, 설명 불가능한 $ SSE $ 를 활용하여 분석한다.

다중회귀모델이 다음과 같다고 하자.

$$ \mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon} $$

$$ \hat{\mathbf{y}} = \mathbf{X} \hat{\boldsymbol{\beta}} $$

그렇다면 $ SST $ 는 다음과 같다.

$$ SST = \sum (y_i - \bar{y})^2 = \mathbf{y}^T \mathbf{y} - n ( \bar{y})^2 $$

참고로 $ n (\bar{y})^2 $ 은 다음과 같이 행렬 표현도 가능하다.

$$ n (\bar{y})^2 = \frac{1}{n} (\sum y_i)^2 = \mathbf{y}^T \left( \frac{\mathbf{1}_{n \times n}}{n} \right) \mathbf{y} $$

여기서 $ SST $ 는 자유도 $ n - 1 $ 을 갖는다.

$ SSE $ 는 다음과 같다.

$$ SSE = \sum (y_i - \hat{y}_i)^2 = (\mathbf{y} - \mathbf{X} \hat{\boldsymbol{\beta}})^T (\mathbf{y} - \mathbf{X} \hat{\boldsymbol{\beta}}) $$

이때 $ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $ 를 대입하면 다음과 같다.

$$ SSE = \mathbf{y}^T \left[ \mathbf{I}_n - \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right] \mathbf{y} = \mathbf{y}^T \mathbf{y} - \hat{\boldsymbol{\beta}}^T \mathbf{X}^T \mathbf{y} $$

Open Proof

$ SSE = (\mathbf{y} - \mathbf{X} \hat{\boldsymbol{\beta}})^T (\mathbf{y} - \mathbf{X} \hat{\boldsymbol{\beta}}) $

$ = \mathbf{y}^T \mathbf{y} - 2 \hat{\boldsymbol{\beta}}^T \mathbf{X}^T \mathbf{y} + \hat{\boldsymbol{\beta}}^T \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} $

$ = \mathbf{y}^T \mathbf{y} - \mathbf{y}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $

$ = \mathbf{y}^T \left[ \mathbf{I}_n - \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right] \mathbf{y} $

여기서 $ SSE $ 의 자유도는 $ n - p - 1 $ 이다.

$ SSR $ 은 다음과 같다.

$$ SSR = \mathbf{y}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} - n(\bar{y})^2 $$

Open Proof

$ SSR = SST - SSE $

$ = \sum (y_i - \bar{y})^2 = \mathbf{y}^T \mathbf{y} - n ( \bar{y})^2 - \mathbf{y}^T \mathbf{y} + \hat{\boldsymbol{\beta}}^T \mathbf{X}^T \mathbf{y} $

$ = \hat{\boldsymbol{\beta}}^T \mathbf{X}^T \mathbf{y} - n (\bar{y})^2 $

$ = \mathbf{y}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} - n(\bar{y})^2 $

$ SSR $ 의 자유도는 $ p $ 이다.

이를 분산분석표로 정의한다면 다음과 같다.

요인 제곱합 자유도 평균제곱 $ F_0 $ $ F_\alpha $
회귀 $ SSR $ $ p $ $ MSR = SSR / p $ $ MSR / MSE $ $ F_\alpha(p, n-p-1) $
잔차 $ SSE $ $ n - p - 1$ $ MSE = SSE / (n-p - 1) $    
$ SST $ $ n - 1 $      

만약 $ F_0 > F_\alpha $ 라면 회귀변동이 유의하다는 뜻이며, 이는 동시에 $ \beta_1, \beta_2, \cdots, \beta_p $ 중 하나는 $ 0$ 이 아니라는 의미이다.

 

애스터로이드