회귀계수의 신뢰구간
단순선형회귀모형을 위한 기본 가정이 있었다. 하나는 선형성(linearity)로 $ E(Y \mid X = x) = \beta_0 + \beta_1 x $ 가 성립하는 것이었고, 다른 하나는 등분산성(homoscedasticity)으로 $ x $ 가 변하여도 $ \mathrm{Var}(Y) $ 는 변하지 않는 것이었다. 마지막으로 $ X $ 는 고정된 상수로 취급하지만, $ Y $ 는 확률변수로 취급하며 이때 $ Y $ 의 측정오차는 독립이라는 가정이었다.
• $ \beta_1 $ 신뢰구간
$ \beta_1 $ 에 대한 추정값은 최소제곱법(OLS)을 활용한 추정에서 다음과 같았다.
$$ \hat{\beta}_1 = \frac{S_{XY}}{S_{X}^2} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i-\bar{x})^2} $$
분자를 다시 써보면 다음과 같다.
$$ \sum (x_i - \bar{x})(y_i - \bar{y}) = \sum y_i (x_i - \bar{x}) - \bar{y} \sum (x_i - \bar{x}) = \sum y_i (x_i - \bar{x}) $$
따라서 $ \hat{\beta}_1 $ 은 다음과 같이 서로 독립인 $ y_i $ 들의 선형결합으로 나타낼 수 있다.
$$ \hat{\beta}_1 = \frac{\sum (x_i - \bar{x}) y_i}{\sum (x_i - \bar{x})^2} = \sum a_i y_i , \qquad a_i = \frac{x_i - \bar{x}}{\sum (x_i - \bar{x})^2} $$
앞선 가정에 따라 $ y_i \sim N( E(Y \mid X = x_i), \sigma^2) $ 이므로 $ E(\hat{\beta}_1) $ 은 다음과 같이 불편추정량이다. 이를 활용하여 $ \hat{\beta}_1 $ 의 기댓값을 구하면 다음과 같다.
$$ E(\hat{\beta}_1) = \beta_1 $$
$ E(\hat{\beta}_1) = \sum a_i E(y_i) $
$ = \sum a_i [\beta^\prime_0 + \beta_1 (x_i - \bar{x})] $
$ = \beta_0^\prime \dfrac{\sum (x_i - \bar{x})}{\sum (x_i - \bar{x})^2} + \beta_1 \dfrac{\sum (x_i - \bar{x})^2}{\sum (x_i - \bar{x})^2}$
$ = \beta_1 $
그리고 $ \hat{\beta}_1 $ 의 분산은 다음과 같다.
$$ \mathrm{Var}(\hat{\beta}_1) = \frac{\sigma^2}{\sum ( x_i - \bar{x})^2} $$
$ \mathrm{Var}(\hat{\beta}_1) = \sum a_i \mathrm{Var}(y_i) $
$ = \sum \left( \dfrac{(x_i - \bar{x})^2}{(\sum (x_i - \bar{x})^2)^2} \right) \sigma^2 $
$ = \dfrac{\sigma^2}{\sum ( x_i - \bar{x})^2} $
따라서 $ \hat{\beta}_1 \sim N \left( \beta_1,\, \dfrac{\sigma^2}{\sum (x_i - \bar{x})^2} \right) $ 이다. 또한 $ \sigma^2 $ 의 추정은 $ MSE $ 이므로 다음과 같다.
$$ \widehat{\mathrm{Var}}(\hat{\beta}_1) = \dfrac{MSE}{\sum (x_i - \bar{x})^2} $$
그러므로 신뢰구간을 구하면 $ \sigma^2 $ 이 알려진 경우는 다음과 같다.
$$ \left( \hat{\beta}_1 - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{\sum (x_i - \bar{x})^2}},\, \hat{\beta}_1 + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{\sum (x_i - \bar{x})^2}} \right) $$
만약 $ \sigma^2 $ 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.
$$ \left( \hat{\beta}_1 - t_{\alpha/2} (n-2) \cdot \frac{\sqrt{MSE}}{\sqrt{\sum (x_i - \bar{x})^2}},\, \hat{\beta}_1 + t_{\alpha/2} (n-2) \cdot \frac{\sqrt{MSE}}{\sqrt{\sum (x_i - \bar{x})^2}} \right) $$
• $ \beta_0 $ 신뢰구간
$ \beta_0 $ 에 대한 추정은 정규식을 통해 도출된 다음 식을 이용한다.
$$ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} $$
이를 활용하여 $ \hat{\beta}_0 $ 의 기댓값을 구하면 다음과 같다.
$$ E (\hat{\beta}_0) = \beta_0 $$
$ E (\hat{\beta}_0) = E(\bar{y}) - \bar{x} E(\hat{\beta}_1) $
$ = (\beta_0 + \beta_1 \bar{x}) - \bar{x} \beta_1 $
$ = \beta_0 $
분산은 다음과 같다.
$$ \mathrm{Var}(\hat{\beta}_0) = \sigma^2 \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum (x_i - \bar{x})^2} \right) $$
$ \mathrm{Var}(\hat{\beta}_0) = \mathrm{Var}(\bar{y} - \hat{\beta}_1 \bar{x}) $
$ = \mathrm{Var}(\bar{y}) +\bar{x}^2 \mathrm{Var}(\hat{\beta}_1) - 2 \mathrm{Cov}(\bar{y}, \hat{\beta}_1 \bar{x}) $
$ = \dfrac{\sigma^2}{n} + \dfrac{\bar{x}^2 \sigma^2}{\sum ( x_i - \bar{x})^2} - 2 \bar{x} \mathrm{Cov}(\bar{y}, \hat{\beta}_1) $
여기서 $ \mathrm{Cov}(\bar{y}, \hat{\beta}_1) $ 을 확인하기 위해 아래와 같이 각 요소를 분해하자.
$ \bar{y} = \beta_0 + \beta_1 \bar{x} + \dfrac{\sum e_i}{n} $
$ \hat{\beta}_1 = \beta_1 + \dfrac{\sum (x_i - \bar{x}) e_i} {\sum (x_i - \bar{x})^2} $
그렇다면 다음과 같다.
$ \mathrm{Cov}(\bar{y}, \hat{\beta}_1) = \mathrm{Cov} \left( \beta_0 + \beta_1 \bar{x} +\dfrac{\sum e_i}{n}, \beta_1 + \dfrac{\sum (x_i - \bar{x}) e_i} {\sum (x_i - \bar{x})^2} \right) $
공분산 계산에서 상수항은 사라지는 것과 공분산의 선형성을 이용하면 다음과 같이 나타낼 수 있다.
$ \mathrm{Cov} \left( \beta_0 + \beta_1 \bar{x} +\dfrac{\sum e_i}{n}, \beta_1 + \dfrac{\sum (x_i - \bar{x}) e_i} {\sum (x_i - \bar{x})^2} \right) = \mathrm{Cov} \left( \dfrac{\sum e_i}{n}, \dfrac{\sum (x_i - \bar{x}) e_i} {\sum (x_i - \bar{x})^2} \right) $
$ = \dfrac{1}{\sum (x_i - \bar{x})^2} \mathrm{Cov} \left( \dfrac{\sum e_i}{n}, \sum (x_i - \bar{x}) e_i \right) $
여기서 $ \mathrm{Cov} \left( \dfrac{\sum e_i}{n}, \sum (x_i - \bar{x}) e_i \right) $ 부분만 확인하면 다음과 같이 나타낼 수 있다.
$ \mathrm{Cov} \left( \dfrac{\sum e_k}{n}, \sum (x_i - \bar{x}) e_i \right) = \dfrac{1}{n} \sum \sum (x_i - \bar{x}) \mathrm{Cov}(e_k, e_i) $
가정상 $ k \neq i $ 이면 독립이므로 공분산은 $ 0 $ 이다. 따라서 이 경우를 제외하고 $ k = i $ 인 경우만 생각하면 다음과 같다.
$ \dfrac{1}{n} \sum (x_i - \bar{x}) \mathrm{Var}(e_i) = \dfrac{\sigma^2}{n} \sum (x_i - \bar{x}) $
그런데 이때 $ \sum(x_i - \bar{x} ) = 0 $ 이므로 공분산은 $ 0 $ 이 된다. 따라서 $ \mathrm{Cov}(\bar{y}, \hat{\beta}_1) = 0 $ 이다.
그러므로 다음과 같다.
$ \mathrm{Var}(\hat{\beta}_0) = \dfrac{\sigma^2}{n} + \dfrac{\bar{x}^2 \sigma^2}{\sum ( x_i - \bar{x})^2} $
$ = \sigma^2 \left( \dfrac{1}{n} + \dfrac{\bar{x}^2}{\sum ( x_i - \bar{x})^2} \right) $
따라서 $ \hat{\beta}_1 \sim N \left( \beta_0,\, \sigma^2 \left( \dfrac{1}{n} + \dfrac{\bar{x}^2}{\sum ( x_i - \bar{x})^2} \right) \right) $ 이다.
그러므로 신뢰구간을 구하면 $ \sigma^2 $ 이 알려진 경우는 다음과 같다.
$$ \left( \hat{\beta}_1 - z_{\alpha/2} \sqrt{ \sigma^2 \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right) } ,\, \hat{\beta}_1 + z_{\alpha/2} \sqrt{ \sigma^2 \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right) } \right) $$
만약 $ \sigma^2 $ 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.
$$ \left( \hat{\beta}_1 - t_{\alpha/2} \sqrt{ MSE \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right) } ,\, \hat{\beta}_1 + t_{\alpha/2} \sqrt{ MSE \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right) } \right) $$
회귀선 신뢰구간 (CI, Confidence Interval)
$ E(Y \mid X=x) $ 는 $ E(Y \mid X = x) = \beta_0 + \beta_1 x $ 로 정의하였고, 다음과 같이 추정한다.
$$ \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x $$
추정량 $ \hat{y} $ 의 기댓값은 다음과 같다.
$$ E(\hat{y}) = E(\hat{\beta}_0 + \hat{\beta}_1 x) = \hat{\beta}_0 + \hat{\beta}_1 x = E(Y \mid X = x) $$
따라서 불편추정량이다.
분산은 다음과 같다.
$$ \mathrm{Var}(\hat{y}) = \sigma^2 \left( \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) $$
$ \mathrm{Var}(\hat{y}) = \mathrm{Var}(\bar{y}) +(x - \bar{x})^2 \mathrm{Var}(\hat{\beta}_1) + 2(x-\bar{x}) \mathrm{Cov}(\bar{y}, \hat{\beta}_1) $
이때 $ \mathrm{Cov}(\bar{y}, \hat{\beta}_1) = 0 $ 이므로 다음과 같다.
$ \mathrm{Var}(\hat{y}) = \mathrm{Var}(\bar{y}) +(x - \bar{x})^2 \mathrm{Var}(\hat{\beta}_1) $
앞선 $ \hat{\beta}_1 $ 의 분산에 대한 증명을 참고하면 다음과 같다.
$ \mathrm{Var}(\bar{y}) +(x - \bar{x})^2 \mathrm{Var}(\hat{\beta}_1) = \sigma^2 \left( \dfrac{1}{n} + \dfrac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) $
이때 $ \hat{\beta}_0 $ 와 $ \hat{\beta}_1 $ 이 정규분포를 따르므로 $ \hat{y} $ 도 정규분포를 따른다. 즉 $ \hat{y} \sim N \left( E(Y \mid X=x),\, \sigma^2 \left( \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) \right) $ 이다.
그러므로 신뢰구간을 구하면 $ \sigma^2 $ 이 알려진 경우는 다음과 같다.
$$ \left( \hat{y} - z_{\alpha/2} \sqrt{\sigma^2 \left( \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) },\, \hat{y} + z_{\alpha/2} \sqrt{\sigma^2 \left( \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) } \right) $$
만약 $ \sigma^2 $ 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.
$$ \left( \hat{y} - t_{\alpha/2} \sqrt{MSE \left( \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) },\, \hat{y} + t_{\alpha/2} \sqrt{MSE \left( \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) } \right) $$
예측구간 (PI, Prediction Interval)
앞에서 신뢰구간을 구한 $ E(Y \mid X = x) $ 는 각 $ y $ 들에 대한 것은 알 수 없었다. 각 $ y $ 의 신뢰구간을 구하기 위해 어떤 단일 $ y $ 를 $ y_j $ 라 해보자. $ y_j $ 의 분산을 구하기 위해 생각해보면 앞서 $ E(Y \mid X = x) $ 의 추정량 $ \hat{y} $ 를 고려해볼 수 있다. $ \hat{y} $ 는 $ E(Y \mid X = x) $ 의 추정량이었고, $ y_j $ 는 $ Y $ 의 어떤 단일 변수이므로 다음이 성립한다.
$$ \mathrm{Var}(\hat{y}_j) = \mathrm{Var}(\epsilon) + \mathrm{Var}(\hat{y}) $$
이때 $ \mathrm{Var}(\epsilon) = \sigma^2 $ 이므로 다음이 성립한다.
$$ \mathrm{Var}(\hat{y}_j) = \sigma^2 \left( 1 + \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) $$
따라서 신뢰구간을 구하면 $ \sigma^2 $ 이 알려진 경우는 다음과 같다.
$$ \left( \hat{y} - z_{\alpha/2} \sqrt{\sigma^2 \left( 1+ \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) },\, \hat{y} + z_{\alpha/2} \sqrt{\sigma^2 \left( 1+ \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) } \right) $$
만약 $ \sigma^2 $ 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.
$$ \left( \hat{y} - t_{\alpha/2} \sqrt{MSE \left( 1+\frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) },\, \hat{y} + t_{\alpha/2} \sqrt{MSE \left( 1+ \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) } \right) $$
즉 개별 $ y $ 에 대한 신뢰구간, 즉 예측구간은 $ E(Y \mid X = x) $ 에 대한 신뢰구간보다 더 넓다.

왼쪽은 회귀선에 대한 $95$% 신뢰구간을 회색으로 표시한 그래프이고, 오른쪽은 개별 $ y $ 에 대한 신뢰구간인 $ 95$% 예측구간을 회색으로 표시한 그래프이다.
'Statistics > Regression Analysis' 카테고리의 다른 글
[Regression Analysis] 단순선형회귀모형의 타당성 (0) | 2025.03.24 |
---|---|
[Regression Analysis] 단순선형회귀(simple linear regression) 가설검정(hypothesis test) (0) | 2025.03.24 |
[Regression Analysis] 가중회귀(weighted regression) (0) | 2025.03.16 |
[Regression Analysis] 원점을 지나는 회귀 (0) | 2025.03.16 |
[Regression Analysis] 상관분석(correlation analysis) 및 분산분석(ANOVA, analysis of variance) (0) | 2025.03.10 |
회귀계수의 신뢰구간
단순선형회귀모형을 위한 기본 가정이 있었다. 하나는 선형성(linearity)로 E(Y∣X=x)=β0+β1x 가 성립하는 것이었고, 다른 하나는 등분산성(homoscedasticity)으로 x 가 변하여도 Var(Y) 는 변하지 않는 것이었다. 마지막으로 X 는 고정된 상수로 취급하지만, Y 는 확률변수로 취급하며 이때 Y 의 측정오차는 독립이라는 가정이었다.
• β1 신뢰구간
β1 에 대한 추정값은 최소제곱법(OLS)을 활용한 추정에서 다음과 같았다.
ˆβ1=SXYS2X=∑(xi−ˉx)(yi−ˉy)∑(xi−ˉx)2
분자를 다시 써보면 다음과 같다.
∑(xi−ˉx)(yi−ˉy)=∑yi(xi−ˉx)−ˉy∑(xi−ˉx)=∑yi(xi−ˉx)
따라서 ˆβ1 은 다음과 같이 서로 독립인 yi 들의 선형결합으로 나타낼 수 있다.
ˆβ1=∑(xi−ˉx)yi∑(xi−ˉx)2=∑aiyi,ai=xi−ˉx∑(xi−ˉx)2
앞선 가정에 따라 yi∼N(E(Y∣X=xi),σ2) 이므로 E(ˆβ1) 은 다음과 같이 불편추정량이다. 이를 활용하여 ˆβ1 의 기댓값을 구하면 다음과 같다.
E(ˆβ1)=β1
E(ˆβ1)=∑aiE(yi)
=∑ai[β′0+β1(xi−ˉx)]
=β′0∑(xi−ˉx)∑(xi−ˉx)2+β1∑(xi−ˉx)2∑(xi−ˉx)2
=β1
그리고 ˆβ1 의 분산은 다음과 같다.
Var(ˆβ1)=σ2∑(xi−ˉx)2
Var(ˆβ1)=∑aiVar(yi)
=∑((xi−ˉx)2(∑(xi−ˉx)2)2)σ2
=σ2∑(xi−ˉx)2
따라서 ˆβ1∼N(β1,σ2∑(xi−ˉx)2) 이다. 또한 σ2 의 추정은 MSE 이므로 다음과 같다.
^Var(ˆβ1)=MSE∑(xi−ˉx)2
그러므로 신뢰구간을 구하면 σ2 이 알려진 경우는 다음과 같다.
(ˆβ1−zα/2⋅σ√∑(xi−ˉx)2,ˆβ1+zα/2⋅σ√∑(xi−ˉx)2)
만약 σ2 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.
(ˆβ1−tα/2(n−2)⋅√MSE√∑(xi−ˉx)2,ˆβ1+tα/2(n−2)⋅√MSE√∑(xi−ˉx)2)
• β0 신뢰구간
β0 에 대한 추정은 정규식을 통해 도출된 다음 식을 이용한다.
ˆβ0=ˉy−ˆβ1ˉx
이를 활용하여 ˆβ0 의 기댓값을 구하면 다음과 같다.
E(ˆβ0)=β0
E(ˆβ0)=E(ˉy)−ˉxE(ˆβ1)
=(β0+β1ˉx)−ˉxβ1
=β0
분산은 다음과 같다.
Var(ˆβ0)=σ2(1n+ˉx2∑(xi−ˉx)2)
Var(ˆβ0)=Var(ˉy−ˆβ1ˉx)
=Var(ˉy)+ˉx2Var(ˆβ1)−2Cov(ˉy,ˆβ1ˉx)
=σ2n+ˉx2σ2∑(xi−ˉx)2−2ˉxCov(ˉy,ˆβ1)
여기서 Cov(ˉy,ˆβ1) 을 확인하기 위해 아래와 같이 각 요소를 분해하자.
ˉy=β0+β1ˉx+∑ein
ˆβ1=β1+∑(xi−ˉx)ei∑(xi−ˉx)2
그렇다면 다음과 같다.
Cov(ˉy,ˆβ1)=Cov(β0+β1ˉx+∑ein,β1+∑(xi−ˉx)ei∑(xi−ˉx)2)
공분산 계산에서 상수항은 사라지는 것과 공분산의 선형성을 이용하면 다음과 같이 나타낼 수 있다.
Cov(β0+β1ˉx+∑ein,β1+∑(xi−ˉx)ei∑(xi−ˉx)2)=Cov(∑ein,∑(xi−ˉx)ei∑(xi−ˉx)2)
=1∑(xi−ˉx)2Cov(∑ein,∑(xi−ˉx)ei)
여기서 Cov(∑ein,∑(xi−ˉx)ei) 부분만 확인하면 다음과 같이 나타낼 수 있다.
Cov(∑ekn,∑(xi−ˉx)ei)=1n∑∑(xi−ˉx)Cov(ek,ei)
가정상 k≠i 이면 독립이므로 공분산은 0 이다. 따라서 이 경우를 제외하고 k=i 인 경우만 생각하면 다음과 같다.
1n∑(xi−ˉx)Var(ei)=σ2n∑(xi−ˉx)
그런데 이때 ∑(xi−ˉx)=0 이므로 공분산은 0 이 된다. 따라서 Cov(ˉy,ˆβ1)=0 이다.
그러므로 다음과 같다.
Var(ˆβ0)=σ2n+ˉx2σ2∑(xi−ˉx)2
=σ2(1n+ˉx2∑(xi−ˉx)2)
따라서 ˆβ1∼N(β0,σ2(1n+ˉx2∑(xi−ˉx)2)) 이다.
그러므로 신뢰구간을 구하면 σ2 이 알려진 경우는 다음과 같다.
(ˆβ1−zα/2√σ2(1n+ˉx2∑ni=1(xi−ˉx)2),ˆβ1+zα/2√σ2(1n+ˉx2∑ni=1(xi−ˉx)2))
만약 σ2 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.
(ˆβ1−tα/2√MSE(1n+ˉx2∑ni=1(xi−ˉx)2),ˆβ1+tα/2√MSE(1n+ˉx2∑ni=1(xi−ˉx)2))
회귀선 신뢰구간 (CI, Confidence Interval)
E(Y∣X=x) 는 E(Y∣X=x)=β0+β1x 로 정의하였고, 다음과 같이 추정한다.
ˆy=ˆβ0+ˆβ1x
추정량 ˆy 의 기댓값은 다음과 같다.
E(ˆy)=E(ˆβ0+ˆβ1x)=ˆβ0+ˆβ1x=E(Y∣X=x)
따라서 불편추정량이다.
분산은 다음과 같다.
Var(ˆy)=σ2(1n+(x−ˉx)2∑(xi−ˉx)2)
Var(ˆy)=Var(ˉy)+(x−ˉx)2Var(ˆβ1)+2(x−ˉx)Cov(ˉy,ˆβ1)
이때 Cov(ˉy,ˆβ1)=0 이므로 다음과 같다.
Var(ˆy)=Var(ˉy)+(x−ˉx)2Var(ˆβ1)
앞선 ˆβ1 의 분산에 대한 증명을 참고하면 다음과 같다.
Var(ˉy)+(x−ˉx)2Var(ˆβ1)=σ2(1n+(x−ˉx)2∑(xi−ˉx)2)
이때 ˆβ0 와 ˆβ1 이 정규분포를 따르므로 ˆy 도 정규분포를 따른다. 즉 ˆy∼N(E(Y∣X=x),σ2(1n+(x−ˉx)2∑(xi−ˉx)2)) 이다.
그러므로 신뢰구간을 구하면 σ2 이 알려진 경우는 다음과 같다.
(ˆy−zα/2√σ2(1n+(x−ˉx)2∑(xi−ˉx)2),ˆy+zα/2√σ2(1n+(x−ˉx)2∑(xi−ˉx)2))
만약 σ2 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.
(ˆy−tα/2√MSE(1n+(x−ˉx)2∑(xi−ˉx)2),ˆy+tα/2√MSE(1n+(x−ˉx)2∑(xi−ˉx)2))
예측구간 (PI, Prediction Interval)
앞에서 신뢰구간을 구한 E(Y∣X=x) 는 각 y 들에 대한 것은 알 수 없었다. 각 y 의 신뢰구간을 구하기 위해 어떤 단일 y 를 yj 라 해보자. yj 의 분산을 구하기 위해 생각해보면 앞서 E(Y∣X=x) 의 추정량 ˆy 를 고려해볼 수 있다. ˆy 는 E(Y∣X=x) 의 추정량이었고, yj 는 Y 의 어떤 단일 변수이므로 다음이 성립한다.
Var(ˆyj)=Var(ϵ)+Var(ˆy)
이때 Var(ϵ)=σ2 이므로 다음이 성립한다.
Var(ˆyj)=σ2(1+1n+(x−ˉx)2∑(xi−ˉx)2)
따라서 신뢰구간을 구하면 σ2 이 알려진 경우는 다음과 같다.
(ˆy−zα/2√σ2(1+1n+(x−ˉx)2∑(xi−ˉx)2),ˆy+zα/2√σ2(1+1n+(x−ˉx)2∑(xi−ˉx)2))
만약 σ2 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.
(ˆy−tα/2√MSE(1+1n+(x−ˉx)2∑(xi−ˉx)2),ˆy+tα/2√MSE(1+1n+(x−ˉx)2∑(xi−ˉx)2))
즉 개별 y 에 대한 신뢰구간, 즉 예측구간은 E(Y∣X=x) 에 대한 신뢰구간보다 더 넓다.

왼쪽은 회귀선에 대한 95% 신뢰구간을 회색으로 표시한 그래프이고, 오른쪽은 개별 y 에 대한 신뢰구간인 95% 예측구간을 회색으로 표시한 그래프이다.
'Statistics > Regression Analysis' 카테고리의 다른 글
[Regression Analysis] 단순선형회귀모형의 타당성 (0) | 2025.03.24 |
---|---|
[Regression Analysis] 단순선형회귀(simple linear regression) 가설검정(hypothesis test) (0) | 2025.03.24 |
[Regression Analysis] 가중회귀(weighted regression) (0) | 2025.03.16 |
[Regression Analysis] 원점을 지나는 회귀 (0) | 2025.03.16 |
[Regression Analysis] 상관분석(correlation analysis) 및 분산분석(ANOVA, analysis of variance) (0) | 2025.03.10 |