회귀 유의성 검정
회귀 유의성 검정(test of significance of regression)은 반응변수와 설명변수 간 선형관계가 존재하는지 판단하는 검정으로 다음과 같은 가설을 검정하는 것이다.
$$ H_0 : \beta_1 = \beta_2 = \cdots = \beta_k = 0 , \qquad H_1 : \exists \beta_j \neq 0 (1 \leq j \leq k) $$
이는 분산분석을 통해 검정한다.
$$ SST = \sum_{i=1}^n (y_i - \bar{y})^2 = \mathbf{y}^\prime \mathbf{y} - n \bar{y}^2 $$
$$ SSR = \hat{\boldsymbol{\beta}}^\prime \mathbf{X}^\prime \mathbf{y} - n \bar{y}^2 $$
$$ SSE = \mathbf{y}^\prime \mathbf{y} -\hat{\boldsymbol{\beta}}^\prime \mathbf{X}^\prime \mathbf{y} $$
여기서 주의할 점은 $ k $ 는 검정하고자 하는 회귀계수의 수이고, $ p $ 는 절편을 포함한 모든 회귀계수의 수이다.
요인 | 제곱합 | 자유도 | 평균제곱 | $ F_0 $ | $ F_\alpha $ |
회귀 | $ SSR $ | $ k $ | $ MSR = SSR / k $ | $ MSR / MSE $ | $ F_\alpha(k, n-p) $ |
잔차 | $ SSE $ | $ n - p $ | $ MSE = SSE / (n-p) $ | ||
계 | $ SST $ | $ n - 1 $ |
결정계수 (Coefficient of Determination)
$$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $$
회귀모델이 데이터를 얼마나 잘 설명하는지를 나타낸다. 그러나 $ R^2 $ 이 크다고 무조건 좋은 모델은 아니다. 설명변수를 추가하면 $ R^2 $ 은 감소하지 않기에 불필요한 설명변수까지 포함하여 $ R^2 $ 을 높일 수 있고, 이는 과적합(overfitting)의 위험이 있다. 따라서 이를 보완하기 위해 아래와 같은 조정된 결정계수(adjusted coefficient of determination)을 사용하기도 한다.
$$ R^2_{\text{Adj}} = 1 - \frac{SSE / (n-p)}{SST / (n - 1)} $$
개별 회귀계수 검정
회귀 자체에 대해서가 아니라 어떤 회귀계수에 대해서도 검정 가능하다. 즉 다음 가설을 검정한다.
$$ H_0 : \beta_j = 0 , \qquad H_1 : \beta_j \neq 0 $$
이를 검정하기 위해 다음과 같은 검정통계량을 사용한다.
$$ t_0 = \frac{\hat{\beta}_j}{\sqrt{\hat{\sigma}^2 \mathbf{C}_{jj}}} $$
여기서 $ \mathbf{C}_{jj} $ 는 행렬 $ (\mathbf{X}^\prime \mathbf{X})^{-1} $ 의 대각원소로 회귀계수 $ \hat{\beta}_j $ 에 대응되는 $ j $ 행 $ j $ 열 값이다.
이를 바탕으로 한 기각역 $ RR $ 은 다음과 같다.
$$ RR = \{ t_0 \mid \lvert t_0 \rvert > t_{\alpha/2}(n - p) \} $$
개별 회귀계수 신뢰구간
회귀계수는 다음과 같은 분포를 따른다.
$$ \hat{\boldsymbol{\beta}} \sim N (\boldsymbol{\beta}, \sigma^2 ( \mathbf{X}^\prime \mathbf{X})^{-1}) $$
계별 회귀계수의 신뢰구간은 다음과 같다.
$$ \hat{\beta}_j \pm t_{\alpha / 2} (n-p) \sqrt{\hat{\sigma}^2 \mathbf{C}_{jj}} $$
평균 반응에 대한 신뢰구간
설명변수들의 특정 조합 $ x_{01}, x_{02}, \cdots, x_{0k} $ 에 대해 평균 반응의 신뢰구간을 구할 수도 있다. 이러한 설명변수들의 특정 조합을 다음과 같이 벡터로 나타내자.
$$ \mathbf{x}_0 = \begin{bmatrix} 1 \\ x_{01} \\ x_{02} \\ \vdots \\ x_{0k} \end{bmatrix} $$
각 지점에서의 평균 반응은 다음과 같이 표현된다.
$$ E[ y(\mathbf{x}_0)] = \mu_{y \mid \mathbf{x}_0} = \mathbf{x}^\prime_0 \boldsymbol{\beta} $$
이에 대한 추정치는 $ \hat{\boldsymbol{\beta}} $ 를 통해 얻는다.
$$ \hat{y}(\mathbf{x}_0) = \hat{\mu}_{y \mid \mathbf{x}_0} = \mathbf{x}^\prime_0 \hat{\boldsymbol{\beta}} $$
이 추정량은 정규분포를 따르는 불편추정량이고 분산은 다음과 같다.
$$ \mathrm{Var}[\hat{y}(\mathbf{x}_0)] = \sigma^2 \mathbf{x}^\prime_0 ( \mathbf{X}^\prime \mathbf{X})^{-1}) \mathbf{x}_0 $$
이를 활용한 신뢰구간은 다음과 같다.
$$ \hat{y}(\mathbf{x}_0) \pm \sqrt{\sigma^2 \mathbf{x}^\prime_0 ( \mathbf{X}^\prime \mathbf{X})^{-1}) \mathbf{x}_0} $$
여기서 $ \mathrm{Var}[\hat{y}(\mathbf{x}_0)] $ 을 적합값의 표준오차(standard error of the fitted response)라고도 한다.
'Statistics > Time Series Analysis' 카테고리의 다른 글
[Time Series Analysis] 선형회귀모델 적합성 확인(adequacy checking) (0) | 2025.04.07 |
---|---|
[Time Series Analysis] 선형회귀모델 예측(prediction) (0) | 2025.04.07 |
[Time Series Analysis] 선형회귀모델(linear regression models) (0) | 2025.03.26 |
[Time Series Analysis] 예측 모델(forecasting model) 모니터링(monitoring) (0) | 2025.03.26 |
[Time Series Analysis] 예측 모델(forecasting model) 선택(Choosing) (0) | 2025.03.26 |