대표본에서의 신뢰구간
대표본이라는 것은 중심극한정리(CLT)를 적용 가능하다는 의미이다. 중심극한정리에 따라 $ \theta $ 의 목표모수가 $ \mu $, $p$, $\mu_1 - \mu_2 $ 또는 $ p_1 - p_2 $ 라면 추축량 $ Z $ 는 다음과 같고 근사적으로 표준정규분포를 따른다.
$$ Z = \dfrac{\hat{\theta} - \theta}{\sigma_\hat{\theta}} \sim N (0, 1) $$
근사적으로 추축량이 되므로 목표모수에 대한 신뢰구간 계산에 추축법을 사용할 수 있다. 목표모수 종류에 따른 표준오차는 다음과 같다.
목표모수 $ \theta $ | 점추정량 $ \hat{\theta} $ | 표준오차 $ \sigma_\hat{\theta} $ |
모평균 $ \mu $ | $$ \bar{X} $$ | $$ \frac{\sigma}{\sqrt{n}} $$ |
이항모수 $ p $ | $$ \hat{p} = \frac{X}{n} $$ | $$ \sqrt{\frac{p(1-p)}{n}} $$ |
두 모평균의 차 $ \mu_1 - \mu_2 $ | $$ \bar{X}_1 - \bar{X}_2 $$ | $$ \sqrt{\frac{\sigma^2_1}{n_1} + \frac{\sigma_2^2}{n_2}} $$ |
두 이항모수의 차 $ p_1 - p_2 $ | $$ \hat{p}_1 - \hat{p}_2 $$ | $$ \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2 (1-p_2)}{n_2}} $$ |
이때 양측신뢰구간은 다음과 같다.
$$ \left( \hat{\theta} - z_{\alpha/2} \sigma_\hat{\theta} \leq \theta \leq \hat{\theta} + z_{\alpha/2} \sigma_\hat{\theta} \right) $$
여기서 $ z_{\alpha/2} $ 는 표준정규분포의 임계값으로 $ P(Z > z_{\alpha / 2} ) = \alpha / 2 $ 인 값을 말한다.
만약 모표준편차를 모른다면 대표본이기 때문에 중심극한정리에 따라 표본표준편차를 사용할 수 있다. 즉 $ \sigma $ 는 $ S $ 로 대체할 수 있고, $ p $ 는 $ \hat{p} $ 로 대체하여 표준오차를 계산하고 적용하면 된다.
소표본에서의 신뢰구간
대표본에서는 중심극한정리(CLT)를 이용하여 정규분포로 근사하여 계산하였으나 소표본에서는 표본 크기가 작기에, 다르게 말하면 중심극한정리를 이용하지 못하는 것이 소표본이기에 불확실성이 발생한다. 이때 모집단이 정규분포를 따른다 가정하면 $ t $-분포를 이용하여 근사할 수 있다.
$ X_1, X_2, \cdots, X_n $ 을 정규모집단에서의 확률표본이라 하면 $ T $ 와 $ Z $ 를 다음과 같이 나타낼 수 있다.
$$ T = \dfrac{\bar{X} - \mu}{S / \sqrt{n}}, \qquad Z = \dfrac{\hat{X} - \mu}{\sigma / \sqrt{n}} $$
그리고 우리는 $ V $ 를 다음과 같이 가정할 때 자유도 $ n-1 $ 의 카이제곱분포를 따르는 것을 안다.
$$ V = \dfrac{(n-1)S^2}{\sigma^2} \sim \chi^2 (n-1) $$
이때 $ T $ 를 $ V $ 와 $ Z $ 로 나타내고 정리하면 다음과 같다.
$$ T = \dfrac{Z}{S / \sigma} = \dfrac{Z}{\sqrt{V / (n-1)}} $$
이때 $ Z $ 는 정규분포를 따르고 $ V $ 는 카이제곱분포를 따르는데 $ Z $ 와 $ V $ 가 독립이므로 $ T $ 는 $t$-분포를 따른다. 따라서 다음과 같고, 소표본에서 $ T $ 를 추축량으로 $t$-분포를 이용할 수 있다.
$$ T \sim t(n-1) $$
목표모수 종류에 따른 추축량과 그 추축량이 따르는 $t$-분포의 자유도는 아래와 같다.
목표모수 $ \theta $ | 점추정량 $ \hat{\theta} $ | 표준오차 추정량 $ \hat{\sigma_\hat{\theta}} $ | 자유도 $ \operatorname{df} $ |
모평균 $ \mu $ | $$ \bar{X} $$ | $$ \frac{S}{\sqrt{n}} $$ | $$ n - 1 $$ |
두 모평균의 차 $ \mu_1 - \mu_2 $ $ ( \sigma_1^2 = \sigma_2^2) $ |
$$ \bar{X}_1 - \bar{X}_2 $$ | $$ \sqrt{\frac{S^2_1}{n_1} + \frac{S_2^2}{n_2}} $$ | $$ \min((n_1 - 1), (n_2 - 1)) $$ |
두 모평균의 차 $ \mu_1 - \mu_2 $ $ ( \sigma_1^2 \neq \sigma_2^2 ) $ |
$$ \bar{X}_1 - \bar{X}_2 $$ | $$ S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} \\ \\ \left( S_p^2 = \dfrac{(n_1 - 1) S^2_1 + (n_2 - 1) S_2^2}{n_1 + n_2 - 2} \right) $$ | $$ n_1 + n_2 - 2 $$ |
이때 양측신뢰구간은 다음과 같다.
$$ \left( \hat{\theta} - t_{\alpha/2} \hat{\sigma_\hat{\theta}} \leq \theta \leq \hat{\theta} + t_{\alpha/2} \hat{\sigma_\hat{\theta}} \right) $$
모분산의 신뢰구간
실험에서 모분산 $ \sigma^2 $ 의 실제 값을 모르는 경우는 많다. 즉 모분산에 대한 신뢰구간 역시 필요하다. 이미 알고 있는 다음을 이용한다.
$$ \dfrac{(n-1)S^2}{\sigma^2} \sim \chi^2 (n-1) $$
즉 양측신뢰구간은 다음과 같다.
$$ \left( \dfrac{(n-1)S^2}{\chi^2_{\alpha/2}} \leq \sigma^2 \leq \dfrac{(n-1)S^2}{\chi^2_{1-\alpha/2}} \right) $$
카이제곱분포의 확률밀도함수는 비대칭이므로 양 끝단, 즉 신뢰상한과 신뢰하한을 선택할 때 최적의 선택을 하기 위해서는 다양한 시행착오와 탐색이 필요하기 때문에 편의상 잘리는 꼬리 면적이 동일하도록 위와 같이 설정한다.
'Statistics > Inferential Statistics' 카테고리의 다른 글
[Inferential Statistics] 점추정량의 일치성(consistency) (0) | 2025.02.12 |
---|---|
[Inferential Statistics] 점추정량의 효율성(efficiency) (0) | 2025.02.11 |
[Inferential Statistics] 신뢰구간(CI, confidence interval) (0) | 2025.02.04 |
[Inferential Statistics] 추정오차(error of estimation) (0) | 2025.02.04 |
[Inferential Statistics] 점추정량의 불편성(unbiasedness) (0) | 2025.02.04 |