제곱합의 분포
분산분석(ANOVA)을 할 때 자연스럽게 $ F_0 = MSR/ MSE $ 를 이용해 검정하였다. 즉 $ F_0 $ 가 F분포를 따른다고 보고 검정하였다. 이때 $ F_0 $ 가 왜 F분포를 따르는지 좀 더 엄밀하게 확인해보겠다.
아래와 같은 다중회귀모형을 가정하자.
$$ \mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon} , \qquad (\boldsymbol{\epsilon} \sim N(\mathbf{0}_n , \sigma^2 \mathbf{I}_n)) $$
총 제곱합 $SST $ 는 다음과 같다.
$$ SST = \sum_{i=1}^n (y_i - \bar{y})^2 = \mathbf{y}^T \mathbf{y} - n (\bar{y})^2 = \mathbf{y} \left( \mathbf{I}_n - \frac{\mathbf{1}_{n \times n}}{n} \right) \mathbf{y} $$
이때 $ \mathbf{y} \sim N(\mathbf{X} \boldsymbol{\beta}, \sigma^2 \mathbf{I}_n ) $ 이라는 것과, $ \left( \mathbf{I}_n - \mathbf{1}_{n \times n} / n \right) $ 은 멱등행렬(idempotent matrix)이라는 것, 계수(rank)는 $ n - 1 $ 라는 것을 생각하면 다음이 성립한다. (참고링크 - 정리 1)
$$ \frac{SST}{\sigma^2} \sim \chi^2 \left( n-1, \frac{1}{2\sigma^2} \boldsymbol{\beta}^T \mathbf{X}^T \left( \mathbf{I}_n - \frac{\mathbf{1}_{n \times n}}{n} \right) \mathbf{X} \boldsymbol{\beta} \right) $$
즉 비중심카이제곱분포를 따른다.
이제 $ SSR $ 에 대해 살펴보면 다음과 같다.
$$ SSR = \mathbf{y}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} - n(\bar{y})^2 = \mathbf{y}^T \left[ \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T - \frac{\mathbf{1}_{n \times n}}{n} \right] \mathbf{y} $$
이때 $ \left[ \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T - \mathbf{1}_{n \times n} / n \right] $ 는 멱등행렬이고, 그 계수(rank)는 $ p $ 이다. 따라서 다음을 얻는다.
$$ \frac{SSR}{\sigma^2} \sim \chi^2 \left( p, \frac{1}{2\sigma^2} \boldsymbol{\beta}^T \mathbf{X}^T \left( \mathbf{I}_n - \frac{\mathbf{1}_{n \times n}}{n} \right) \mathbf{X} \boldsymbol{\beta} \right) $$
이제 $ SSE $ 에 대해 살펴보면 다음과 같다.
$$ SSE = \mathbf{y}^T \left[ \mathbf{I}_n - \mathbf{X}(\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right] \mathbf{y} $$
여기서 $ \left[ \mathbf{I}_n - \mathbf{X}(\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right] $ 는 멱등행렬이며 계수(rank)는 $ n - p - 1 $ 이다.
또한 $ ( \mathbf{X} \boldsymbol{\beta})^T \left[ \mathbf{I}_n - \mathbf{X}(\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \right] (\mathbf{X} \boldsymbol{\beta}) = 0 $ 이므로 다음이 성립한다.
$$ \frac{SSE}{\sigma^2} \sim \chi^2 (n - p - 1) $$
$ SSR $ 과 $ SSE $ 의 독립성
$ SSR $ 과 $ SSE $ 가 독립인지 확인하기 위해 다음과 같이 설정하자. (참고링크 - 정리 3)
$$ \mathbf{y} \sim N(\mathbf{X}\boldsymbol{\beta} , \sigma^2 \mathbf{I}_n = \mathbf{V}) $$
$$ \mathbf{y}^T \mathbf{Ay} = \mathbf{y}^T \left[ \frac{\mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T - \mathbf{1}_{n \times n} / n}{\sigma^2} \right] \mathbf{y} $$
$$ \mathbf{y}^T \mathbf{By} = \mathbf{y}^T \left[ \frac{\mathbf{X} (\mathbf{I}_n - \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T}{\sigma^2} \right] \mathbf{y} $$
이제 독립인지 확인하기 위해 $ \mathbf{AVB} $ 를 확인하면 다음과 같다.
$$ \mathbf{AVB} = \mathbf{0}_{n \times n} $$
따라서 $SSR $ 과 $ SSE $ 는 서로 독립적으로 분포한다.
F-분포
$SSR $ 과 $ SSE $ 가 서로 독립적으로 다음과 같이 분포한다는 것을 확인하였다.
$$ \frac{SSR}{\sigma^2} \sim \chi^2 \left( p, \lambda \right), \qquad \left( \lambda = \frac{1}{2\sigma^2} \boldsymbol{\beta}^T \mathbf{X}^T \left( \mathbf{I}_n - \frac{\mathbf{1}_{n \times n}}{n} \right) \mathbf{X} \boldsymbol{\beta} \right) $$
$$ \frac{SSE}{\sigma^2} \sim \chi^2 (n - p - 1) $$
이제 검정통계량 $ F_0 $ 를 다음과 같이 가정하자.
$$ F_0 = \frac{MSR}{MSE} = \frac{\frac{SSR}{\sigma^2} / p}{\frac{SSE}{\sigma^2} / (n-p-1)} $$
분자는 비중심모수가 $ \lambda $ 인 비중심 카이제곱분포를 따르고, 분모는 카이제곱분포를 따르므로 다음과 같다.
$$ F_0 \sim F(p, n-p-1, \lambda) $$
즉 비중심 F-분포를 따른다.
그런데 분산분석에서 귀무가설은 $ H_0 : \beta_1 = \beta_2 = \cdots = \beta_p = 0 $ 이다. 즉 귀무가설이 성립한다면 $ \lambda = 0 $ 이므로 다음과 같다.
$$ F_0 \sim F(p, n - p - 1) $$
결국 유의수준 $ \alpha $ 에서 귀무가설을 기각할 수 있는지 여부를 확인할 수 있다.
'Statistics > Regression Analysis' 카테고리의 다른 글
[Regression Analysis] 프리슈-워-로벨 정리 (Frisch–Waugh–Lovell theorem) (0) | 2025.04.03 |
---|---|
[Regression Analysis] 다중회귀분석에서의 제곱합의 기댓값 및 F-검정의 의미 (0) | 2025.04.03 |
[Regression Analysis] 다중회귀분석 분산분석(ANOVA) (0) | 2025.04.02 |
[Regression Analysis] 다중회귀분석(multiple regression analysis) (0) | 2025.04.02 |
[Regression Analysis] 이차형식(quadratic forms)의 분포 (0) | 2025.04.02 |
제곱합의 분포
분산분석(ANOVA)을 할 때 자연스럽게 F0=MSR/MSE 를 이용해 검정하였다. 즉 F0 가 F분포를 따른다고 보고 검정하였다. 이때 F0 가 왜 F분포를 따르는지 좀 더 엄밀하게 확인해보겠다.
아래와 같은 다중회귀모형을 가정하자.
y=Xβ+ϵ,(ϵ∼N(0n,σ2In))
총 제곱합 SST 는 다음과 같다.
SST=n∑i=1(yi−ˉy)2=yTy−n(ˉy)2=y(In−1n×nn)y
이때 y∼N(Xβ,σ2In) 이라는 것과, (In−1n×n/n) 은 멱등행렬(idempotent matrix)이라는 것, 계수(rank)는 n−1 라는 것을 생각하면 다음이 성립한다. (참고링크 - 정리 1)
SSTσ2∼χ2(n−1,12σ2βTXT(In−1n×nn)Xβ)
즉 비중심카이제곱분포를 따른다.
이제 SSR 에 대해 살펴보면 다음과 같다.
SSR=yTX(XTX)−1XTy−n(ˉy)2=yT[X(XTX)−1XT−1n×nn]y
이때 [X(XTX)−1XT−1n×n/n] 는 멱등행렬이고, 그 계수(rank)는 p 이다. 따라서 다음을 얻는다.
SSRσ2∼χ2(p,12σ2βTXT(In−1n×nn)Xβ)
이제 SSE 에 대해 살펴보면 다음과 같다.
SSE=yT[In−X(XTX)−1XT]y
여기서 [In−X(XTX)−1XT] 는 멱등행렬이며 계수(rank)는 n−p−1 이다.
또한 (Xβ)T[In−X(XTX)−1XT](Xβ)=0 이므로 다음이 성립한다.
SSEσ2∼χ2(n−p−1)
SSR 과 SSE 의 독립성
SSR 과 SSE 가 독립인지 확인하기 위해 다음과 같이 설정하자. (참고링크 - 정리 3)
y∼N(Xβ,σ2In=V)
yTAy=yT[X(XTX)−1XT−1n×n/nσ2]y
yTBy=yT[X(In−XTX)−1XTσ2]y
이제 독립인지 확인하기 위해 AVB 를 확인하면 다음과 같다.
AVB=0n×n
따라서 SSR 과 SSE 는 서로 독립적으로 분포한다.
F-분포
SSR 과 SSE 가 서로 독립적으로 다음과 같이 분포한다는 것을 확인하였다.
SSRσ2∼χ2(p,λ),(λ=12σ2βTXT(In−1n×nn)Xβ)
SSEσ2∼χ2(n−p−1)
이제 검정통계량 F0 를 다음과 같이 가정하자.
F0=MSRMSE=SSRσ2/pSSEσ2/(n−p−1)
분자는 비중심모수가 λ 인 비중심 카이제곱분포를 따르고, 분모는 카이제곱분포를 따르므로 다음과 같다.
F0∼F(p,n−p−1,λ)
즉 비중심 F-분포를 따른다.
그런데 분산분석에서 귀무가설은 H0:β1=β2=⋯=βp=0 이다. 즉 귀무가설이 성립한다면 λ=0 이므로 다음과 같다.
F0∼F(p,n−p−1)
결국 유의수준 α 에서 귀무가설을 기각할 수 있는지 여부를 확인할 수 있다.
'Statistics > Regression Analysis' 카테고리의 다른 글
[Regression Analysis] 프리슈-워-로벨 정리 (Frisch–Waugh–Lovell theorem) (0) | 2025.04.03 |
---|---|
[Regression Analysis] 다중회귀분석에서의 제곱합의 기댓값 및 F-검정의 의미 (0) | 2025.04.03 |
[Regression Analysis] 다중회귀분석 분산분석(ANOVA) (0) | 2025.04.02 |
[Regression Analysis] 다중회귀분석(multiple regression analysis) (0) | 2025.04.02 |
[Regression Analysis] 이차형식(quadratic forms)의 분포 (0) | 2025.04.02 |