분산분석
다중회귀분석의 분산분석도 역시 단순회귀분석의 분산분석과 유사하게 진행된다. 결국 총변동인 $ SST $ 와 설명가능한 $ SSR $, 설명 불가능한 $ SSE $ 를 활용하여 분석한다.
다중회귀모델이 다음과 같다고 하자.
$$ \mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon} $$
$$ \hat{\mathbf{y}} = \mathbf{X} \hat{\boldsymbol{\beta}} $$
그렇다면 $ SST $ 는 다음과 같다.
$$ SST = \sum (y_i - \bar{y})^2 = \mathbf{y}^T \mathbf{y} - n ( \bar{y})^2 $$
참고로 $ n (\bar{y})^2 $ 은 다음과 같이 행렬 표현도 가능하다.
$$ n (\bar{y})^2 = \frac{1}{n} (\sum y_i)^2 = \mathbf{y}^T \left( \frac{\mathbf{1}_{n \times n}}{n} \right) \mathbf{y} $$
여기서 $ SST $ 는 자유도 $ n - 1 $ 을 갖는다.
$ SSE $ 는 다음과 같다.
$$ SSE = \sum (y_i - \hat{y}_i)^2 = (\mathbf{y} - \mathbf{X} \hat{\boldsymbol{\beta}})^T (\mathbf{y} - \mathbf{X} \hat{\boldsymbol{\beta}}) $$
이때 $ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $ 를 대입하면 다음과 같다.
$$ SSE = \mathbf{y}^T \left[ \mathbf{I}_n - \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right] \mathbf{y} = \mathbf{y}^T \mathbf{y} - \hat{\boldsymbol{\beta}}^T \mathbf{X}^T \mathbf{y} $$
$ SSE = (\mathbf{y} - \mathbf{X} \hat{\boldsymbol{\beta}})^T (\mathbf{y} - \mathbf{X} \hat{\boldsymbol{\beta}}) $
$ = \mathbf{y}^T \mathbf{y} - 2 \hat{\boldsymbol{\beta}}^T \mathbf{X}^T \mathbf{y} + \hat{\boldsymbol{\beta}}^T \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} $
$ = \mathbf{y}^T \mathbf{y} - \mathbf{y}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $
$ = \mathbf{y}^T \left[ \mathbf{I}_n - \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right] \mathbf{y} $
여기서 $ SSE $ 의 자유도는 $ n - p - 1 $ 이다.
$ SSR $ 은 다음과 같다.
$$ SSR = \mathbf{y}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} - n(\bar{y})^2 $$
$ SSR = SST - SSE $
$ = \sum (y_i - \bar{y})^2 = \mathbf{y}^T \mathbf{y} - n ( \bar{y})^2 - \mathbf{y}^T \mathbf{y} + \hat{\boldsymbol{\beta}}^T \mathbf{X}^T \mathbf{y} $
$ = \hat{\boldsymbol{\beta}}^T \mathbf{X}^T \mathbf{y} - n (\bar{y})^2 $
$ = \mathbf{y}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} - n(\bar{y})^2 $
$ SSR $ 의 자유도는 $ p $ 이다.
이를 분산분석표로 정의한다면 다음과 같다.
요인 | 제곱합 | 자유도 | 평균제곱 | $ F_0 $ | $ F_\alpha $ |
회귀 | $ SSR $ | $ p $ | $ MSR = SSR $ | $ MSR / MSE $ | $ F_\alpha(p, n-p-1) $ |
잔차 | $ SSE $ | $ n - p - 1$ | $ MSE = SSE / (n-2) $ | ||
계 | $ SST $ | $ n - 1 $ |
만약 $ F_0 > F_\alpha $ 라면 회귀변동이 유의하다는 뜻이며, 이는 동시에 $ \beta_1, \beta_2, \cdots, \beta_p $ 중 하나는 $ 0$ 이 아니라는 의미이다.
'Statistics > Regression Analysis' 카테고리의 다른 글
[Regression Analysis] 다중회귀에서의 제곱합의 분포(distribution of sum of squares) (0) | 2025.04.03 |
---|---|
[Regression Analysis] 다중회귀분석에서의 제곱합의 기댓값 및 F-검정의 의미 (0) | 2025.04.03 |
[Regression Analysis] 다중회귀분석(multiple regression analysis) (0) | 2025.04.02 |
[Regression Analysis] 이차형식(quadratic forms)의 분포 (0) | 2025.04.02 |
[Regression Analysis] 반복측정(repeated measure) 분산분석 (0) | 2025.03.26 |