제곱합의 기댓값

 

다중회귀모델이 다음과 같다고 하자.

$$ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} $$

이를 적합시켜 다음을 얻는다.

$$ \hat{\mathbf{y}} = \mathbf{X} \hat{\boldsymbol{\beta}} $$

그리고 $ SSR $, $SSE $ 는 다음과 같다.

$$ SSR = \mathbf{y}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} - n(\bar{y})^2 $$

$$ SSE = \mathbf{y}^T \left[ \mathbf{I}_n - \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right] \mathbf{y} $$

또한 다중회귀분석에서의 가정에 의해 다음이 성립한다.

$$ E(\mathbf{y}) = \mathbf{X} \boldsymbol{\beta} $$

$$ \mathrm{Var}(\mathbf{y}) = \mathrm{Var}(\boldsymbol{\epsilon}) = \sigma^2 \mathbf{I}_n $$

 

• $ SSR $ 의 기댓값

그렇다면 $ SSR $ 의 기댓값은 다음과 같다.

$$ E(SSR) = E \left[ \mathbf{y}^T \left( \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T - \frac{\mathbf{1}_{n \times n}}{n} \right) \mathbf{y} \right] $$

Open Proof

$ E(SSR) = E\left( \mathbf{y}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} - n(\bar{y})^2 \right) $

$ = E \left( \mathbf{y}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} - \mathbf{y}^T \dfrac{\mathbf{1}_{n \times n}}{n} \mathbf{y} \right) $

$ = E \left[ \mathbf{y}^T \left( \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T - \dfrac{\mathbf{1}_{n \times n}}{n} \right) \mathbf{y} \right] $

여기서 $ \mathbf{y}^T $ 와 $ \mathbf{y} $ 사이 부분인 $ \left( \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T - \mathbf{1}_{n \times n} /n \right) $ 를 $ \mathbf{A} $ 로 놓으면 다음과 같다.

$$ E(SSR) = \sigma^2 \operatorname{tr}(\mathbf{A}) + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{AX} \boldsymbol{\beta} $$

Open Proof

여기서 $ \mathbf{y}^T $ 와 $ \mathbf{y} $ 사이 부분인 $ \left( \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T - \mathbf{1}_{n \times n} /n \right) $ 를 $ \mathbf{A} $ 로 놓으면 다음과 같다.

$ E (SSR) = E(\mathbf{y}^T \mathbf{A y} ) $

이때 이차형식의 분포의 성질(참고링크 - 정리1)을 이용하면 다음과 같다.

$ E(SSR) = \operatorname{tr} [\mathbf{A} (\mathrm{Var}(\mathbf{y})] + [E(\mathbf{y})^T]^T \mathbf{A} [E(\mathbf{y})] $

$ = \operatorname{tr} (\mathbf{A}\mathbf{I}_n \sigma^2 ) + (\mathbf{X}\boldsymbol{\beta})^T \mathbf{A} (\mathbf{X} \boldsymbol{\beta}) $

$ = \sigma^2 \operatorname{tr}(\mathbf{A}) + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{AX} \boldsymbol{\beta} $

이때 $ \operatorname{tr}(\mathbf{A}) = p $ 이다.

Open Proof

$ \operatorname{tr}(\mathbf{A}) = \operatorname{tr}( \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T - \mathbf{1}_{n \times n} /n ) $

$ = \operatorname{tr}( \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T ) - \operatorname{tr}(\mathbf{1}_{n \times n} /n ) $

$ = (p + 1) - 1 $

$ = p $

따라서 다시 정리하면 다음과 같다.

$$ E(SSR) = p \sigma^2 + \boldsymbol{\beta}^T \mathbf{X}^T \left( \mathbf{I}_n - \frac{\mathbf{1}_{n \times n}}{n} \right)  \mathbf{X} \boldsymbol{\beta} $$

Open Proof

$ E(SSR) = p \sigma^2 + \boldsymbol{\beta}^T \mathbf{X}^T \left( \mathbf{X}(\mathbf{X}^T \mathbf{X})^{-1}\mathbf{X}^T - \frac{\mathbf{1}_{n \times n}}{n} \right)  \mathbf{X} \boldsymbol{\beta} $

$ = p \sigma^2 + \boldsymbol{\beta}^T \mathbf{X}^T \left[ \mathbf{X}(\mathbf{X}^T \mathbf{X})^{-1}\mathbf{X}^T \right] \mathbf{X} \boldsymbol{\beta} - \boldsymbol{\beta}^T \mathbf{X}^T \left[ \frac{\mathbf{1}_{n \times n}}{n} \right] \mathbf{X} \boldsymbol{\beta} $

$ = p \sigma^2 + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{X}(\mathbf{X}^T \mathbf{X})^{-1}\mathbf{X}^T \mathbf{X} \boldsymbol{\beta} - \boldsymbol{\beta}^T \mathbf{X}^T \left[ \frac{\mathbf{1}_{n \times n}}{n} \right] \mathbf{X} \boldsymbol{\beta} $

$ = p \sigma^2 + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{X} \boldsymbol{\beta} - \boldsymbol{\beta}^T \mathbf{X}^T \left[ \frac{\mathbf{1}_{n \times n}}{n} \right] \mathbf{X} \boldsymbol{\beta} $

$ = p \sigma^2 + \boldsymbol{\beta}^T \mathbf{X}^T \left( \mathbf{I}_n - \frac{\mathbf{1}_{n \times n}}{n} \right)  \mathbf{X} \boldsymbol{\beta} $

이를 활용하여 $ MSR $ 의 기댓값을 구하면 다음과 같다.

$$ E (MSR) = \frac{E(SSR)}{p} = \sigma^2 + \boldsymbol{\beta}^T \mathbf{X}^T \left( \mathbf{I}_n - \frac{\mathbf{1}_{n \times n}}{n} \right)  \mathbf{X} \boldsymbol{\beta} / p $$

 

• $ SSE $ 의 기댓값

이제 $ SSE $ 의 기댓값을 구해보자.

$$ E(SSE) = E\left[ \mathbf{y}^T \left( \mathbf{I}_n - \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right) \mathbf{y} \right] $$

여기서 $ \left( \mathbf{I}_n - \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right) $ 를 $ \mathbf{B}$ 로 놓으면 다음과 같다.

$$ E(SSE) = \sigma^2 \operatorname{tr}(\mathbf{B}) + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{B} \mathbf{X} \boldsymbol{\beta} $$

Open Proof

$ E(SSE) = E\left[ \mathbf{y}^T \left( \mathbf{I}_n - \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right) \mathbf{y} \right] $

$ = E \left( \mathbf{y}^T \mathbf{B} \mathbf{y} \right) $

이때 이차형식의 분포의 성질(참고링크 - 정리1)을 이용하면 다음과 같다.

$ E(SSE) = \sigma^2 \operatorname{tr}(\mathbf{B}) + \boldsymbol{\beta}^T \mathbf{X}^T \mathbf{B} \mathbf{X} \boldsymbol{\beta} $

이때 $ \operatorname{tr}(\mathbf{B}) = n - p - 1 $ 이다.

Open Proof

$ \operatorname{tr}(\mathbf{B}) = \operatorname{tr}( \mathbf{I}_n - \mathbf{X}(\mathbf{X}^T \mathbf{X}) \mathbf{X}^T) $

$ = \operatorname{tr}(\mathbf{I}_n) -  \operatorname{tr}(\mathbf{X} (\mathbf{X}^T \mathbf{X}) \mathbf{X}^T) $

$ = n - (p + 1) $

$ = n - p - 1 $

또한 $ \mathbf{X}^T \mathbf{BX} = \mathbf{0}_{(p + 1) \times (p + 1)} $ 이다.

Open Proof

$ \mathbf{X}^T \mathbf{BX} = \mathbf{X}^T \left( \mathbf{I}_n - \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right) \mathbf{X} $

$ = \mathbf{X}^T \mathbf{I}_n \mathbf{X} - \mathbf{X}^T \left( \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right) \mathbf{X} $

$ = \mathbf{I}_{p+1} - \mathbf{X}^T \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{X} $

$ = \mathbf{I}_{p+1} - \mathbf{I}_{p+1} $

$ = \mathbf{0}_{(p+1) \times (p+1)} $

따라서 정리하면 다음과 같다.

$$ E (SSE) = (n - p - 1) \sigma^2 $$

이를 이용하여 $ MSE $ 의 기댓값을 구하면 다음과 같다.

$$ E(MSE) = \frac{E(SSE)}{n - p - 1} = \sigma^2 $$

 


F-검정의 의미

 

앞서 구한 $ E(MSR) $ 과 $ E(MSE) $ 를 이용해 다음과 같이 $ MSR $ 과 $ MSE $ 의 기댓값의 비를 보자.

$$ \frac{E(MSR)}{E(MSE)} = 1 + \frac{1}{p \sigma^2} \boldsymbol{\beta}^T \mathbf{X}^T \left( \mathbf{I}_n - \frac{\mathbf{1}_{n \times n}}{n} \right) \mathbf{X} \boldsymbol{\beta} $$

이때 $ \mathbf{X}^T \left( \mathbf{I}_n - \dfrac{\mathbf{1}_{n \times n}}{n} \right) \mathbf{X} $ 가 양의 준정부호 행렬(positive semi-definite matrix)이므로 모든 $ \boldsymbol{\beta} $ 에 대해 다음이 성립한다.

$$ \boldsymbol{\beta}^T \mathbf{X}^T \left( \mathbf{I}_n - \frac{\mathbf{1}_{n \times n}}{n} \right) \mathbf{X} \boldsymbol{\beta} \geq 0 $$

그렇다면 언제 등호가 성립할까 생각해볼 수 있을 것이다.

등호가 성립하기 위해서는 $ \beta_0 $ 는 제외하고, 나머지 회귀계수들이 모두 $ 0 $ 이 되어야 한다. 즉 다음과 같아야 한다.

$$ \beta_1 = \beta_2 = \cdots = \beta_p = 0 $$

즉 분산분석표의 F-검정은 다음과 같은 가설을 가지고 있다고 보아도 될 것이다.

$$ H_0 : \beta_1 = \beta_2 = \cdots = \beta_p = 0 $$

반대로 $ H_a $ 는 $ \beta_0 $ 외 어느 하나의 회귀계수라도 $ 0 $ 이 아니면 된다.

 

애스터로이드