회귀계수의 신뢰구간

 

단순선형회귀모형을 위한 기본 가정이 있었다. 하나는 선형성(linearity)로 E(YX=x)=β0+β1x 가 성립하는 것이었고, 다른 하나는 등분산성(homoscedasticity)으로 x 가 변하여도 Var(Y) 는 변하지 않는 것이었다. 마지막으로 X 는 고정된 상수로 취급하지만, Y 는 확률변수로 취급하며 이때 Y 의 측정오차는 독립이라는 가정이었다.

 

• β1 신뢰구간

β1 에 대한 추정값은 최소제곱법(OLS)을 활용한 추정에서 다음과 같았다.

ˆβ1=SXYS2X=(xiˉx)(yiˉy)(xiˉx)2

분자를 다시 써보면 다음과 같다.

(xiˉx)(yiˉy)=yi(xiˉx)ˉy(xiˉx)=yi(xiˉx)

따라서 ˆβ1 은 다음과 같이 서로 독립인 yi 들의 선형결합으로 나타낼 수 있다.

ˆβ1=(xiˉx)yi(xiˉx)2=aiyi,ai=xiˉx(xiˉx)2

앞선 가정에 따라 yiN(E(YX=xi),σ2) 이므로 E(ˆβ1) 은 다음과 같이 불편추정량이다. 이를 활용하여 ˆβ1 의 기댓값을 구하면 다음과 같다.

E(ˆβ1)=β1

Open Proof

E(ˆβ1)=aiE(yi)

=ai[β0+β1(xiˉx)]

=β0(xiˉx)(xiˉx)2+β1(xiˉx)2(xiˉx)2

=β1

그리고 ˆβ1 의 분산은 다음과 같다.

Var(ˆβ1)=σ2(xiˉx)2

Open Proof

Var(ˆβ1)=aiVar(yi)

=((xiˉx)2((xiˉx)2)2)σ2

=σ2(xiˉx)2

따라서 ˆβ1N(β1,σ2(xiˉx)2) 이다. 또한 σ2 의 추정은 MSE 이므로 다음과 같다.

^Var(ˆβ1)=MSE(xiˉx)2

그러므로 신뢰구간을 구하면 σ2 이 알려진 경우는 다음과 같다.

(ˆβ1zα/2σ(xiˉx)2,ˆβ1+zα/2σ(xiˉx)2)

만약 σ2 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.

(ˆβ1tα/2(n2)MSE(xiˉx)2,ˆβ1+tα/2(n2)MSE(xiˉx)2)

 

β0 신뢰구간

β0 에 대한 추정은 정규식을 통해 도출된 다음 식을 이용한다.

ˆβ0=ˉyˆβ1ˉx

이를 활용하여 ˆβ0 의 기댓값을 구하면 다음과 같다.

E(ˆβ0)=β0

Open Proof

E(ˆβ0)=E(ˉy)ˉxE(ˆβ1)

=(β0+β1ˉx)ˉxβ1

=β0 

분산은 다음과 같다.

Var(ˆβ0)=σ2(1n+ˉx2(xiˉx)2)

Open Proof

Var(ˆβ0)=Var(ˉyˆβ1ˉx)

=Var(ˉy)+ˉx2Var(ˆβ1)2Cov(ˉy,ˆβ1ˉx)

=σ2n+ˉx2σ2(xiˉx)22ˉxCov(ˉy,ˆβ1)

여기서 Cov(ˉy,ˆβ1) 을 확인하기 위해 아래와 같이 각 요소를 분해하자.

ˉy=β0+β1ˉx+ein

ˆβ1=β1+(xiˉx)ei(xiˉx)2

그렇다면 다음과 같다.

Cov(ˉy,ˆβ1)=Cov(β0+β1ˉx+ein,β1+(xiˉx)ei(xiˉx)2)

공분산 계산에서 상수항은 사라지는 것과 공분산의 선형성을 이용하면 다음과 같이 나타낼 수 있다.

Cov(β0+β1ˉx+ein,β1+(xiˉx)ei(xiˉx)2)=Cov(ein,(xiˉx)ei(xiˉx)2)

=1(xiˉx)2Cov(ein,(xiˉx)ei)

여기서 Cov(ein,(xiˉx)ei) 부분만 확인하면 다음과 같이 나타낼 수 있다.

Cov(ekn,(xiˉx)ei)=1n(xiˉx)Cov(ek,ei)

가정상 ki 이면 독립이므로 공분산은 0 이다. 따라서 이 경우를 제외하고 k=i 인 경우만 생각하면 다음과 같다.

1n(xiˉx)Var(ei)=σ2n(xiˉx)

그런데 이때 (xiˉx)=0 이므로 공분산은 0 이 된다. 따라서 Cov(ˉy,ˆβ1)=0 이다.

그러므로 다음과 같다.

Var(ˆβ0)=σ2n+ˉx2σ2(xiˉx)2

=σ2(1n+ˉx2(xiˉx)2)

따라서 ˆβ1N(β0,σ2(1n+ˉx2(xiˉx)2)) 이다.

그러므로 신뢰구간을 구하면 σ2 이 알려진 경우는 다음과 같다.

(ˆβ1zα/2σ2(1n+ˉx2ni=1(xiˉx)2),ˆβ1+zα/2σ2(1n+ˉx2ni=1(xiˉx)2))

만약 σ2 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.

(ˆβ1tα/2MSE(1n+ˉx2ni=1(xiˉx)2),ˆβ1+tα/2MSE(1n+ˉx2ni=1(xiˉx)2))

 


회귀선 신뢰구간 (CI, Confidence Interval)

 

E(YX=x)E(YX=x)=β0+β1x 로 정의하였고, 다음과 같이 추정한다.

ˆy=ˆβ0+ˆβ1x

추정량 ˆy 의 기댓값은 다음과 같다.

E(ˆy)=E(ˆβ0+ˆβ1x)=ˆβ0+ˆβ1x=E(YX=x)

따라서 불편추정량이다.

분산은 다음과 같다.

Var(ˆy)=σ2(1n+(xˉx)2(xiˉx)2)

Open Proof

Var(ˆy)=Var(ˉy)+(xˉx)2Var(ˆβ1)+2(xˉx)Cov(ˉy,ˆβ1)

이때 Cov(ˉy,ˆβ1)=0 이므로 다음과 같다.

Var(ˆy)=Var(ˉy)+(xˉx)2Var(ˆβ1)

앞선 ˆβ1 의 분산에 대한 증명을 참고하면 다음과 같다.

Var(ˉy)+(xˉx)2Var(ˆβ1)=σ2(1n+(xˉx)2(xiˉx)2)

이때 ˆβ0ˆβ1 이 정규분포를 따르므로 ˆy 도 정규분포를 따른다. 즉 ˆyN(E(YX=x),σ2(1n+(xˉx)2(xiˉx)2)) 이다.

그러므로 신뢰구간을 구하면 σ2 이 알려진 경우는 다음과 같다.

(ˆyzα/2σ2(1n+(xˉx)2(xiˉx)2),ˆy+zα/2σ2(1n+(xˉx)2(xiˉx)2))

만약 σ2 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.

(ˆytα/2MSE(1n+(xˉx)2(xiˉx)2),ˆy+tα/2MSE(1n+(xˉx)2(xiˉx)2))

 


예측구간 (PI, Prediction Interval)

 

앞에서 신뢰구간을 구한 E(YX=x) 는 각 y 들에 대한 것은 알 수 없었다. 각 y 의 신뢰구간을 구하기 위해 어떤 단일 yyj 라 해보자. yj 의 분산을 구하기 위해 생각해보면 앞서 E(YX=x) 의 추정량 ˆy 를 고려해볼 수 있다. ˆyE(YX=x) 의 추정량이었고, yjY 의 어떤 단일 변수이므로 다음이 성립한다.

Var(ˆyj)=Var(ϵ)+Var(ˆy)

이때 Var(ϵ)=σ2 이므로 다음이 성립한다.

Var(ˆyj)=σ2(1+1n+(xˉx)2(xiˉx)2)

따라서 신뢰구간을 구하면 σ2 이 알려진 경우는 다음과 같다.

(ˆyzα/2σ2(1+1n+(xˉx)2(xiˉx)2),ˆy+zα/2σ2(1+1n+(xˉx)2(xiˉx)2))

만약 σ2 이 알려져 있지 않다면 추정값을 사용한 신뢰구간은 다음과 같다.

(ˆytα/2MSE(1+1n+(xˉx)2(xiˉx)2),ˆy+tα/2MSE(1+1n+(xˉx)2(xiˉx)2))

즉 개별 y 에 대한 신뢰구간, 즉 예측구간은 E(YX=x) 에 대한 신뢰구간보다 더 넓다.

출처: https://www.kevinwangstats.com/

왼쪽은 회귀선에 대한 95% 신뢰구간을 회색으로 표시한 그래프이고, 오른쪽은 개별 y 에 대한 신뢰구간인 95% 예측구간을 회색으로 표시한 그래프이다.

 

애스터로이드