소표본 검정
대표본 검정에서는 중심극한정리(CLT)를 이용할 수 있었지만, 소표본 검정에서는 이를 적용하지 못한다. 따라서 모집단이 정규분포를 따른다는 가정이 필요하다.
대표적으로 소표본에서 정규분포를 따른다고 가정하는 추정량을 이용하여 추정하는 모수는 모평균, 두 모평균의 차 등이 있다. 각 모수에 대한 점추정량과 표준오차는 소표본 신뢰구간(링크)을 참고하면 된다.
예를 들어 귀무가설과 대립가설이 다음과 같다고 하자.
$$ H_0 : \theta = \theta_0, \qquad H_a : \theta > \theta_0 $$
검정통계량 $ \hat{\theta} $ 는 표본평균 $ \bar{X} $ 이고 기각역은 선택된 $ k $ 값에 대해 $ RR = \{ \bar{X} > k \} $ 이다. 일반적인 가설 검정 절차에 따라 유의수준을 $ \alpha $ 로 고정하고 그에 따라 $ k $ 를 선택한다.
모평균을 검정할 때 모집단의 분산을 모를 경우 $t$-분포를 사용한다. $T $ 는 다음과 같다.
$$ T = \frac{\bar{X}-\mu_0}{S / \sqrt{n}} $$
여기서 $ S $ 는 표준오차이며 $ T $ 는 자유도 $ n - 1 $ 의 $t$-분포를 따른다. 즉 유의수준 $ \alpha $ 에 대해 $ k $ 는 다음과 같이 계산된다.
$$ k = \mu_0 + t_\alpha \frac{S}{\sqrt{n}} $$
여기서 $ t_\alpha $ 는 $t$-분포에서 $ P(T>t_\alpha) = \alpha $ 인 $ t_\alpha $ 이다.
$ k $ 에 따라 기각역은 다음과 같이 설정된다.
$$ RR = \left\{ \hat{\theta} : \hat{\theta} > \theta_0 + t_\alpha \frac{S}{\sqrt{n}} \right\} $$
이렇게 설정된 검정통계량, 기각역은 모평균 우측검정에 관한 것이니 그 외 부분은 아래를 참고하면 된다.
참고로 $t$-분포를 이용하는 것을 $t$-검정이라 한다.
대립가설 및 기각역
우측검정 (upper-tail test) |
양측검정 (two-tail test) |
좌측검정 (lower-tail test) |
|
귀무가설 | $$ H_0 : \theta = \theta_0 $$ | ||
대립가설 | $$H_a : \theta > \theta_0 $$ | $$H_a : \theta \neq \theta_0 $$ | $$H_a : \theta < \theta_0 $$ |
검정통계량 | $$ T = \frac{\hat{\theta} - \theta_0}{\hat{\sigma_\hat{\theta}}} $$ | ||
기각역 | $$ RR = \{ t > t_\alpha \} $$ | $$ RR = \{ \lvert t \rvert > t_{\alpha / 2} \} $$ | $$ RR = \{ t < - t_\alpha \} $$ |
강건성 (Robustness)
이러한 검정을 이용하는 데 처음 가정은 모집단이 정규분포를 따른다는 것이었다. 그 가정 덕분에 $ t $-분포를 이용할 수 있었다. 그러나 한편으로는 모집단이 정규분포를 따른다는 가정을 증명하는 것은 불가능하다.
그럼에도 비정규모집단에서 검정통계량을 $ T $ 로 사용한 많은 경험적 연구들의 결과 모집단의 분포가 정규분포와 약간은 다르더라도 검정통계량의 확률분포에 거의 영향을 주지 않았다. 또한 실제 많은 데이터들은 정규분포 혹은 그와 유사한 분포를 따른다.
즉 이러한 기본적 가정에서 벗어나는 것에 민감하지 않은 통계적 검증은 폭 넓은 응용가능성을 가질 수 있고, 이런식으로 형식적 가정 위반에 둔감한 검정을 강건한 통계적 검정(robust statistical test)이라 한다. $t$-검정도 정규성 가정에 대해서는 당연히 강건하다고 할 수 있다.
'Statistics > Inferential Statistics' 카테고리의 다른 글
[Inferential Statistics] 검정력(power of tests)과 최강력검정(most powerful test) 및 균일최강력검정(uniformly most powerful test) (0) | 2025.02.23 |
---|---|
[Inferential Statistics] 분산 및 등분산에 대한 검정 (0) | 2025.02.22 |
[Inferential Statistics] p-값(p-value) (0) | 2025.02.21 |
[Inferential Statistics] 대표본 검정과 2종 오류 확률 및 표본 크기 결정 (0) | 2025.02.20 |
[Inferential Statistics] 기각역(rejection region) 설정 (0) | 2025.02.20 |