회귀계수의 신뢰구간
단순선형회귀모형을 위한 기본 가정이 있었다. 하나는 선형성(linearity)로 $ E(Y \mid X = x) = \beta_0 + \beta_1 x $ 가 성립하는 것이었고, 다른 하나는 등분산성(homoscedasticity)으로 $ x $ 가 변하여도 $ \mathrm{Var}(Y) $ 는 변하지 않는 것이었다. 마지막으로 $ X $ 는 고정된 상수로 취급하지만, $ Y $ 는 확률변수로 취급하며 이때 $ Y $ 의 측정오차는 독립이라는 가정이었다.
• $ \beta_1 $ 신뢰구간
$ \beta_1 $ 에 대한 추정값은 최소제곱법(OLS)을 활용한 추정에서 다음과 같았다.
$$ \hat{\beta}_1 = \frac{S_{XY}}{S_{X}^2} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i-\bar{x})^2} $$
분자를 다시 써보면 다음과 같다.
$$ \sum (x_i - \bar{x})(y_i - \bar{y}) = \sum y_i (x_i - \bar{x}) - \bar{y} \sum (x_i - \bar{x}) = \sum y_i (x_i - \bar{x}) $$
따라서 $ \hat{\beta}_1 $ 은 다음과 같이 서로 독립인 $ y_i $ 들의 선형결합으로 나타낼 수 있다.
$$ \hat{\beta}_1 = \frac{\sum (x_i - \bar{x}) y_i}{\sum (x_i - \bar{x})^2} = \sum a_i y_i , \qquad a_i = \frac{x_i - \bar{x}}{\sum (x_i - \bar{x})^2} $$
앞선 가정에 따라 $ y_i \sim N( E(Y \mid X = x_i), \sigma^2) $ 이므로 $ E(\hat{\beta}_1) $ 은 다음과 같이 불편추정량이다. 이를 활용하여 $ \hat{\beta}_1 $ 의 기댓값을 구하면 다음과 같다.
$$ E(\hat{\beta}_1) = \beta_1 $$
$ E(\hat{\beta}_1) = \sum a_i E(y_i) $
$ = \sum a_i [\beta^\prime_0 + \beta_1 (x_i - \bar{x})] $
$ = \beta_0^\prime \dfrac{\sum (x_i - \bar{x})}{\sum (x_i - \bar{x})^2} + \beta_1 \dfrac{\sum (x_i - \bar{x})^2}{\sum (x_i - \bar{x})^2}$
$ = \beta_1 $
그리고 $ \hat{\beta}_1 $ 의 분산은 다음과 같다.
$$ \mathrm{Var}(\hat{\beta}_1) = \frac{\sigma^2}{\sum ( x_i - \bar{x})^2} $$
$ \mathrm{Var}(\hat{\beta}_1) = \sum a_i \mathrm{Var}(y_i) $
$ = \sum \left( \dfrac{(x_i - \bar{x})^2}{(\sum (x_i - \bar{x})^2)^2} \right) \sigma^2 $
$ = \dfrac{\sigma^2}{\sum ( x_i - \bar{x})^2} $
따라서 $ \hat{\beta}_1 \sim N \left( \beta_1,\, \dfrac{\sigma^2}{\sum (x_i - \bar{x})^2} \right) $ 이다. 또한 $ \sigma^2 $ 의 추정은 $ MSE $ 이므로 다음과 같다.
$$ \widehat{\mathrm{Var}}(\hat{\beta}_1) = \dfrac{MSE}{\sum (x_i - \bar{x})^2} $$
그러므로 신뢰구간을 구하면 $ \sigma^2 $ 이 알려진 경우는 다음과 같다.
$$ \left( \hat{\beta}_1 - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{\sum (x_i - \bar{x})^2}},\, \hat{\beta}_1 + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{\sum (x_i - \bar{x})^2}} \right) $$
만약 $ \sigma^2 $ 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.
$$ \left( \hat{\beta}_1 - t_{\alpha/2} (n-2) \cdot \frac{\sqrt{MSE}}{\sqrt{\sum (x_i - \bar{x})^2}},\, \hat{\beta}_1 + t_{\alpha/2} (n-2) \cdot \frac{\sqrt{MSE}}{\sqrt{\sum (x_i - \bar{x})^2}} \right) $$
• $ \beta_0 $ 신뢰구간
$ \beta_0 $ 에 대한 추정은 정규식을 통해 도출된 다음 식을 이용한다.
$$ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} $$
이를 활용하여 $ \hat{\beta}_0 $ 의 기댓값을 구하면 다음과 같다.
$$ E (\hat{\beta}_0) = \beta_0 $$
$ E (\hat{\beta}_0) = E(\bar{y}) - \bar{x} E(\hat{\beta}_1) $
$ = (\beta_0 + \beta_1 \bar{x}) - \bar{x} \beta_1 $
$ = \beta_0 $
분산은 다음과 같다.
$$ \mathrm{Var}(\hat{\beta}_0) = \sigma^2 \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum (x_i - \bar{x})^2} \right) $$
$ \mathrm{Var}(\hat{\beta}_0) = \mathrm{Var}(\bar{y} - \hat{\beta}_1 \bar{x}) $
$ = \mathrm{Var}(\bar{y}) +\bar{x}^2 \mathrm{Var}(\hat{\beta}_1) - 2 \mathrm{Cov}(\bar{y}, \hat{\beta}_1 \bar{x}) $
$ = \dfrac{\sigma^2}{n} + \dfrac{\bar{x}^2 \sigma^2}{\sum ( x_i - \bar{x})^2} - 2 \bar{x} \mathrm{Cov}(\bar{y}, \hat{\beta}_1) $
여기서 $ \mathrm{Cov}(\bar{y}, \hat{\beta}_1) $ 을 확인하기 위해 아래와 같이 각 요소를 분해하자.
$ \bar{y} = \beta_0 + \beta_1 \bar{x} + \dfrac{\sum e_i}{n} $
$ \hat{\beta}_1 = \beta_1 + \dfrac{\sum (x_i - \bar{x}) e_i} {\sum (x_i - \bar{x})^2} $
그렇다면 다음과 같다.
$ \mathrm{Cov}(\bar{y}, \hat{\beta}_1) = \mathrm{Cov} \left( \beta_0 + \beta_1 \bar{x} +\dfrac{\sum e_i}{n}, \beta_1 + \dfrac{\sum (x_i - \bar{x}) e_i} {\sum (x_i - \bar{x})^2} \right) $
공분산 계산에서 상수항은 사라지는 것과 공분산의 선형성을 이용하면 다음과 같이 나타낼 수 있다.
$ \mathrm{Cov} \left( \beta_0 + \beta_1 \bar{x} +\dfrac{\sum e_i}{n}, \beta_1 + \dfrac{\sum (x_i - \bar{x}) e_i} {\sum (x_i - \bar{x})^2} \right) = \mathrm{Cov} \left( \dfrac{\sum e_i}{n}, \dfrac{\sum (x_i - \bar{x}) e_i} {\sum (x_i - \bar{x})^2} \right) $
$ = \dfrac{1}{\sum (x_i - \bar{x})^2} \mathrm{Cov} \left( \dfrac{\sum e_i}{n}, \sum (x_i - \bar{x}) e_i \right) $
여기서 $ \mathrm{Cov} \left( \dfrac{\sum e_i}{n}, \sum (x_i - \bar{x}) e_i \right) $ 부분만 확인하면 다음과 같이 나타낼 수 있다.
$ \mathrm{Cov} \left( \dfrac{\sum e_k}{n}, \sum (x_i - \bar{x}) e_i \right) = \dfrac{1}{n} \sum \sum (x_i - \bar{x}) \mathrm{Cov}(e_k, e_i) $
가정상 $ k \neq i $ 이면 독립이므로 공분산은 $ 0 $ 이다. 따라서 이 경우를 제외하고 $ k = i $ 인 경우만 생각하면 다음과 같다.
$ \dfrac{1}{n} \sum (x_i - \bar{x}) \mathrm{Var}(e_i) = \dfrac{\sigma^2}{n} \sum (x_i - \bar{x}) $
그런데 이때 $ \sum(x_i - \bar{x} ) = 0 $ 이므로 공분산은 $ 0 $ 이 된다. 따라서 $ \mathrm{Cov}(\bar{y}, \hat{\beta}_1) = 0 $ 이다.
그러므로 다음과 같다.
$ \mathrm{Var}(\hat{\beta}_0) = \dfrac{\sigma^2}{n} + \dfrac{\bar{x}^2 \sigma^2}{\sum ( x_i - \bar{x})^2} $
$ = \sigma^2 \left( \dfrac{1}{n} + \dfrac{\bar{x}^2}{\sum ( x_i - \bar{x})^2} \right) $
따라서 $ \hat{\beta}_1 \sim N \left( \beta_0,\, \sigma^2 \left( \dfrac{1}{n} + \dfrac{\bar{x}^2}{\sum ( x_i - \bar{x})^2} \right) \right) $ 이다.
그러므로 신뢰구간을 구하면 $ \sigma^2 $ 이 알려진 경우는 다음과 같다.
$$ \left( \hat{\beta}_1 - z_{\alpha/2} \sqrt{ \sigma^2 \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right) } ,\, \hat{\beta}_1 + z_{\alpha/2} \sqrt{ \sigma^2 \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right) } \right) $$
만약 $ \sigma^2 $ 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.
$$ \left( \hat{\beta}_1 - t_{\alpha/2} \sqrt{ MSE \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right) } ,\, \hat{\beta}_1 + t_{\alpha/2} \sqrt{ MSE \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right) } \right) $$
회귀선 신뢰구간 (CI, Confidence Interval)
$ E(Y \mid X=x) $ 는 $ E(Y \mid X = x) = \beta_0 + \beta_1 x $ 로 정의하였고, 다음과 같이 추정한다.
$$ \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x $$
추정량 $ \hat{y} $ 의 기댓값은 다음과 같다.
$$ E(\hat{y}) = E(\hat{\beta}_0 + \hat{\beta}_1 x) = \hat{\beta}_0 + \hat{\beta}_1 x = E(Y \mid X = x) $$
따라서 불편추정량이다.
분산은 다음과 같다.
$$ \mathrm{Var}(\hat{y}) = \sigma^2 \left( \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) $$
$ \mathrm{Var}(\hat{y}) = \mathrm{Var}(\bar{y}) +(x - \bar{x})^2 \mathrm{Var}(\hat{\beta}_1) + 2(x-\bar{x}) \mathrm{Cov}(\bar{y}, \hat{\beta}_1) $
이때 $ \mathrm{Cov}(\bar{y}, \hat{\beta}_1) = 0 $ 이므로 다음과 같다.
$ \mathrm{Var}(\hat{y}) = \mathrm{Var}(\bar{y}) +(x - \bar{x})^2 \mathrm{Var}(\hat{\beta}_1) $
앞선 $ \hat{\beta}_1 $ 의 분산에 대한 증명을 참고하면 다음과 같다.
$ \mathrm{Var}(\bar{y}) +(x - \bar{x})^2 \mathrm{Var}(\hat{\beta}_1) = \sigma^2 \left( \dfrac{1}{n} + \dfrac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) $
이때 $ \hat{\beta}_0 $ 와 $ \hat{\beta}_1 $ 이 정규분포를 따르므로 $ \hat{y} $ 도 정규분포를 따른다. 즉 $ \hat{y} \sim N \left( E(Y \mid X=x),\, \sigma^2 \left( \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) \right) $ 이다.
그러므로 신뢰구간을 구하면 $ \sigma^2 $ 이 알려진 경우는 다음과 같다.
$$ \left( \hat{y} - z_{\alpha/2} \sqrt{\sigma^2 \left( \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) },\, \hat{y} + z_{\alpha/2} \sqrt{\sigma^2 \left( \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) } \right) $$
만약 $ \sigma^2 $ 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.
$$ \left( \hat{y} - t_{\alpha/2} \sqrt{MSE \left( \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) },\, \hat{y} + t_{\alpha/2} \sqrt{MSE \left( \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) } \right) $$
예측구간 (PI, Prediction Interval)
앞에서 신뢰구간을 구한 $ E(Y \mid X = x) $ 는 각 $ y $ 들에 대한 것은 알 수 없었다. 각 $ y $ 의 신뢰구간을 구하기 위해 어떤 단일 $ y $ 를 $ y_j $ 라 해보자. $ y_j $ 의 분산을 구하기 위해 생각해보면 앞서 $ E(Y \mid X = x) $ 의 추정량 $ \hat{y} $ 를 고려해볼 수 있다. $ \hat{y} $ 는 $ E(Y \mid X = x) $ 의 추정량이었고, $ y_j $ 는 $ Y $ 의 어떤 단일 변수이므로 다음이 성립한다.
$$ \mathrm{Var}(\hat{y}_j) = \mathrm{Var}(\epsilon) + \mathrm{Var}(\hat{y}) $$
이때 $ \mathrm{Var}(\epsilon) = \sigma^2 $ 이므로 다음이 성립한다.
$$ \mathrm{Var}(\hat{y}_j) = \sigma^2 \left( 1 + \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) $$
따라서 신뢰구간을 구하면 $ \sigma^2 $ 이 알려진 경우는 다음과 같다.
$$ \left( \hat{y} - z_{\alpha/2} \sqrt{\sigma^2 \left( 1+ \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) },\, \hat{y} + z_{\alpha/2} \sqrt{\sigma^2 \left( 1+ \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) } \right) $$
만약 $ \sigma^2 $ 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.
$$ \left( \hat{y} - t_{\alpha/2} \sqrt{MSE \left( 1+\frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) },\, \hat{y} + t_{\alpha/2} \sqrt{MSE \left( 1+ \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) } \right) $$
즉 개별 $ y $ 에 대한 신뢰구간, 즉 예측구간은 $ E(Y \mid X = x) $ 에 대한 신뢰구간보다 더 넓다.
왼쪽은 회귀선에 대한 $95$% 신뢰구간을 회색으로 표시한 그래프이고, 오른쪽은 개별 $ y $ 에 대한 신뢰구간인 $ 95$% 예측구간을 회색으로 표시한 그래프이다.
'Statistics > Regression Analysis' 카테고리의 다른 글
[Regression Analysis] 단순선형회귀모형의 타당성 (0) | 2025.03.24 |
---|---|
[Regression Analysis] 단순선형회귀(simple linear regression) 가설검정(hypothesis test) (0) | 2025.03.24 |
[Regression Analysis] 가중회귀(weighted regression) (0) | 2025.03.16 |
[Regression Analysis] 원점을 지나는 회귀 (0) | 2025.03.16 |
[Regression Analysis] 상관분석(correlation analysis) 및 분산분석(ANOVA, analysis of variance) (0) | 2025.03.10 |