신뢰구간 (CI, Confidence Interval)
신뢰구간은 구간추정량(interval estimator)을 말하는데, 좀 더 정확히 말하자면 표본 측정값을 사용하여 구간의 양 끝점을 게산하는 방법을 규정하는 규칙이다. 신뢰구간이 의미있기 위해서는 당연하게도 신뢰구간은 목표모수 $ \theta $ 를 포함할 가능성이 높아야 하며, 가능한 범위가 좁아야 한다.
이렇게 설정된 신뢰구간의 위와 아래의 끝점을 각각 신뢰상한(upper confidence)과 신뢰하한(lower confidence)라 한다. 그리고 신뢰구간이 목표모수 $ \theta $ 를 포함할 확률을 신뢰계수(confidence coefficient) 혹은 신뢰수준(confidence level)이라 한다. 여기서 목표모수를 포함한다는 것에 대해서는 아래에서 엄밀히 다루겠다.
신뢰상한은 $ \hat{\theta}_U $ 로 나타내고, 신뢰하한은 $ \hat{\theta}_L $ 로 나타낸다. 즉 신뢰구간은 $ \left( \hat{\theta}_L, \hat{\theta}_U \right) $ 이다. 만약 $ P ( \hat{\theta}_L \leq \theta \leq \hat{\theta}_U ) = 1- \alpha $ 라면 $ 1- \alpha $ 가 신뢰계수이다.
신뢰구간은 양 끝을 특정하는 양측신뢰구간(two-sided confidence interval)인 $ \left[ \hat{\theta}_L, \hat{\theta}_U \right] $ 로 설정하기도 하고, 한 쪽만 고정한 단측신뢰구간(one-sided confidence interval)인 $ \left[ \hat{\theta}_L , \infty \right) $ 혹은 $ \left( - \infty, \hat{\theta}_U \right] $ 로 설정하기도 한다.
일반적으로 양측신뢰구간을 많이 사용하는데, 추후 검정에서 사용하는 것이긴 하지만, 가설을 기각할지 말지를 결정하는 임계치(critical value) $ z_{\alpha/2} $ 와 표본의 표준편차인 표준오차 $ SE = \sigma_{\hat{\theta}} $ 의 곱을 점추정치 $ \hat{\theta} $ 에 더하고 빼서 신뢰구간을 형성한다. 즉 신뢰구간을 $ \left( \hat{\theta} - z_{\alpha/2} \sigma_{\hat{\theta}}, \hat{\theta} + z_{\alpha/2} \sigma_{\hat{\theta}} \right) $ 로 설정한다.
추축법 (Pivotal method)
추축법은 다음과 같은 특성을 갖는 추축량(pivotal quantity)을 찾는 신뢰구간 계산방법이다.
- 표본 측정값과 유일한 미지의 모수 $ \theta $ 의 함수이다.
- 확률분포가 모수 $ \theta $ 에 의존하지 않는다.
예를 들어서 $ X_1, X_2, \cdots, X_n $ 이 $ N(\mu, \sigma^2) $ 에서의 확률표본이고, $ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 $ 일 때, $ (\bar{X}-\mu) / (S / \sqrt{n}) $ 는 자유도가 $ n-1 $ 인 $ t $-분포를 따르므로 모수 $ \mu, \sigma^ 2 $ 에 의존하지 않는다. 즉 $ (\bar{X}-\mu) / (S / \sqrt{n}) $ 는 추축량이다.
추축량의 확률분포를 아는 경우 다음의 논리를 이용하여 구간추정을 할 수 있다.
만약 $ X $ 가 확률변수이고 $ c > 0 $ 이며 $ P(a \leq X \leq b) = \alpha $ 라면 다음이 성립한다.
$$ P(ca \leq cX \leq cb) = \alpha $$
유사하게 임의의 상수 $d $ 에 대해서도 다음이 성립한다.
$$ P(a + d \leq X + d \leq b + d) = \alpha $$
즉 $ P(a \leq X \leq b) $ 는 척도(scale)나 이동(translation)에 영향을 받지 않는다. 그렇기에 확률변수를 선형변환을 통해 손쉽게 다른 형태의 신뢰구간으로 변형하고, 이때의 분포를 확인하며, 이를 통해 확률을 구할 수 있는 것이다.
신뢰구간의 의미
통계적 추론에서 신뢰구간을 이용한 추정은 추정치의 불확실성을 반영하여 모수에 대한 범위를 제공함으로써 통계적 신뢰도를 높여주기에 중요하다 그러나 신뢰구가니에 대한 오해는 결과 해석의 오류를 가져올 수 있다.
신뢰구간은 모집단의 특정 모수를 추정하기 위해 통계량으로 얻은 점 추정치를 중심으로 설정한 구간으로 신뢰계수를 통해 구간이 모수를 포함할 가능성을 제시한다. 그러나 이때의 확률은 특정 신뢰구간이 모수를 포함할 확률이 아니라 반복적인 표본 추출에서 구한 신뢰구간들 중 모수를 포함하는 구간의 비율을 의미한다.
즉 신뢰수준이 $ 95$%라 할 때 우리는 우리의 표본으로부터 얻은 신뢰구간이 목표 모수를 포함하는 $ 95 $%에 속하는지 아니면 포함하지 않는 $ 5$%에 속하는지 알 수 없다. 신뢰수준이 $ 95$%라는 것은 이 숫자들을 얻는 데 사용한 방법이 $ 95$% 확률로 정확한 결과를 제공한다는 말을 줄인 것이다.
아래 그래프는 $100$번 표본을 추출하여 $ 95$% 신뢰구간이 모평균을 포함하는지를 시각화한 예이다. 모평균을 포함하지 못한 구간은 빨간색으로 표시하였다. 확인해본다면 표본추출로 얻은 신뢰구간 $5$개가 모평균을 포함하지 못했음을 보여준다.
어떤 사람들은 $ P( 48.04 < \mu < 51.96 ) $ 과 같은 표현도 피해야 한다고 말한다. 이같은 표현이 실제로는 변하지 않는 상수인 모수값에 확률분포가 존재한다는 암시를 줄 수 있다는 이유에서다. 그리고 이를 $ \mu $ 가 $ (48.04, 51.96) $ 구간에 있거나 없다로 해석할 것을 권유한다.
이처럼 신뢰구간에 대한 흔한 해석인 "신뢰수준은 이 신뢰구간이 모수를 포함할 확률이다."는 틀린 것이고, 정확히 알고 사용해야 한다.
'Statistics > Inferential Statistics' 카테고리의 다른 글
[Inferential Statistics] 점추정량의 효율성(efficiency) (0) | 2025.02.11 |
---|---|
[Inferential Statistics] 대표본, 소표본에서의 신뢰구간 설정 및 모분산의 신뢰구간 (0) | 2025.02.05 |
[Inferential Statistics] 추정오차(error of estimation) (0) | 2025.02.04 |
[Inferential Statistics] 점추정량의 불편성(unbiasedness) (0) | 2025.02.04 |
[Inferential Statistics] 추정(estimate) 및 추정량(estimator) (0) | 2025.02.03 |