대표본 검정
추정량을 $ \hat{\theta} $ 라 할 때, 추정량의 표집분포가 근사적으로 평균이 $ \theta $, 표준오차 $ \sigma_\hat{\theta} $ 인 정규분포를 따른다는 가정을 기반으로 한다. 즉 중심극한정리(CLT)를 이용한다.
대표적으로 대표본에서 정규분포를 따른다고 가정하는 추정량을 이용하여 추정하는 모수는 모평균, 이항모수, 두 모평균의 차, 두 이항모수의 차가 있다. 각 모수에 대한 점추정량과 표준오차는 대표본 신뢰구간(링크)을 참고하면 된다.
예를 들어 귀무가설과 대립가설이 아래와 같다고 가정하자.
$$ H_0 : \theta = \theta_0 , \qquad H_a : \theta > \theta_0 $$
검정통계량은 $ \hat{\theta} $ 이고, 기각역은 선택된 $ k $ 값에 대하여 $ RR = \{ \hat{\theta} > k \} $ 이다.
일반적인 가설 검정 절차에 따라 유의수준을 $ \alpha $ 로 고정하고 그에 따라 $ k $ 를 선택한다.
당연히도 $H_0$ 가 참이면 $ \hat{\theta} $ 는 근사적으로 평균이 $ \theta_0 $ 이고, 표준오차가 $ \sigma_\hat{\theta} $ 인 정규분포를 따를 것이다.
유의수준 $ \alpha $ 에 대해 검정한다면 $ k $ 는 다음과 같이 선택된다.
$$ k = \theta_0 + z_\alpha \sigma_\hat{\theta} $$
여기서 $ z_\alpha $ 는 표준정규분포를 이용한 것으로 $ P(Z > z_\alpha) = \alpha $ 인 $ z_\alpha $ 이다. 주의할 점은 $ z_\alpha $ 에 대해 $ P(Z \leq z_\alpha) = \alpha $ 라 정의하고 사용하기도 하는데 이 경우를 $ z^\prime_\alpha $ 라 한다면 $ z^\prime_{1-\alpha} = z_\alpha $ 이다.
$ k $ 에 따라 기각역은 다음과 같이 설정된다.
$$ RR = \left\{ \hat{\theta} : \hat{\theta} > \theta_0 + z_\alpha \sigma_{\hat{\theta}} \right\} = \left\{ \hat{\theta} : \frac{\hat{\theta} - \theta_0}{\sigma_{\hat{\theta}}} > z_\alpha \right\} $$
그러므로 $ Z = (\hat{\theta}-\theta_0)/\sigma_{\hat{\theta}} $ 를 검정통계량으로 사용한다면 기각역은 다음과 같이 간단하게 나타낼 수 있다.
$$ RR = \{ z > z_\alpha \}, \qquad Z = \frac{\hat{\theta}-\theta_0}{\sigma_{\hat{\theta}}} $$
이렇게 설정된 검정통계량, 기각역은 우측검정에 관한 것이니 그 외 부분은 아래를 참고하면 된다.
참고로 표준정규분포를 이용하는 것을 Z-검정이라고 한다.
대립가설 및 기각역
우측검정 (upper-tail test) |
양측검정 (two-tail test) |
좌측검정 (lower-tail test) |
|
귀무가설 | $$ H_0 : \theta = \theta_0 $$ | ||
대립가설 | $$H_a : \theta > \theta_0 $$ | $$H_a : \theta \neq \theta_0 $$ | $$H_a : \theta < \theta_0 $$ |
검정통계량 | $$ Z = \frac{\hat{\theta} - \theta_0}{\sigma_\hat{\theta}} $$ | ||
기각역 | $$ RR = \{ z > z_\alpha \} $$ | $$ RR = \{ \lvert z \rvert > z_{\alpha / 2} \} $$ | $$ RR = \{ z < - z_\alpha \} $$ |
2종 오류 확률
Z-검정에서 2종 오류 확률, 즉 $ \beta $ 계산은 $H_a $ 에 속하는 $ \theta $ 의 특정값에 대해서만 가능하다.
예를 들어 이 특정값을 $ \theta_a $ 라 하고, $H_0 : \theta = \theta_0 $ 대 $ H_a : \theta > \theta_0 $ 검정에서 특정 대립가설인 $ \theta = \theta_a (\theta_a > \theta_0) $ 를 선택하자.
기각역은 $ RR = \{ \hat{\theta} : \hat{\theta} > k \} $ 의 형태이기에 $ \beta $ 는 다음과 같다.
$$ \beta = P(\hat{\theta} \leq k \mid \theta = \theta_a ) = P \left( \frac{\hat{\theta} - \theta_a}{\sigma_\hat{\theta}} \leq \frac{k- \theta_a}{\sigma_\hat{\theta}} \mid \theta = \theta_a \right) $$
만약 $ \theta = \theta_a $ 가 참이라면 표준정규분포를 이용할 수 있다. 즉 $ \beta $ 를 구할 수 있다.
예시에서는 우측 검정에 대한 2종 오류 확률을 확인하였는데, 보편적으로 적용한다면 $ \beta $ 는 다음과 같다.
$$ \beta = P( \hat{\theta} \notin RR \mid \theta = \theta_a ) $$
중요한 것은 $ H_a $ 에 속하는 $ \theta $ 의 특정값에 대해서만 $ beta $ 를 구할 수 있다는 것이다.
표본 크기 결정
기각역 설정에 관하여 다루면서 특정 $ \alpha $ 에 대해 기각역을 고정하면 $ \beta $ 가 커질 수 있다는 것을 말하였다. 따라서 $ \alpha $ 를 고정하고 계산하였을 때 $ \beta $ 가 예상 외로 크다면 방법은 표본의 크기 $ n $ 을 증가시키는 것 뿐이다.
$ H_0 : \mu = \mu_0 $ 대 $ H_a : \mu > \mu_0 $ 에 대한 우측검정에서 $ \alpha $ 와 $ \beta $ 가 명시된 경우에서 적정한 $ n $ 을 계산해보자.
$$ \alpha = P(\bar{X} > k \mid \mu = \mu_0 ) = P \left( \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}} > \frac{k - \mu_0}{\sigma / \sqrt{n}} \mid \mu = \mu_0 \right) = P(Z > z_\alpha) $$
$$ \beta = P(\bar{X} \leq k \mid \mu = \mu_a) = P \left( \frac{\bar{X} - \mu_a}{\sigma / \sqrt{n}} \leq \frac{k - \mu_a}{\sigma / \sqrt{n}} \mid \mu = \mu_a \right) = P(Z \leq -z_\beta ) $$
따라서 다음과 같다.
$$ z_\alpha = \frac{k - \mu_0}{\sigma / \sqrt{n}} $$
$$ - z_\beta = \frac{k - \mu_a}{\sigma / \sqrt{n}} $$
연립하여 풀어보면 다음과 같다.
$$ k = \mu_0 + z_\alpha \frac{\sigma}{\sqrt{n}} = \mu_a - z_\beta \frac{\sigma}{\sqrt{n}} $$
$$ \sqrt{n} = \frac{(z_\alpha + z_\beta)\sigma}{\mu_a - \mu_0} $$
즉 적절한 표본의 크기는 다음과 같다. 참고로 좌측검정에 대해서도 결과는 동일하다.
$$ n = \frac{(z_\alpha + z_\beta)^2 \sigma^2}{(\mu_\alpha - \mu_0)^2} $$
양측검정이라면 다음과 같다.
$$ n = \frac{(z_{\alpha / 2} + z_\beta)^2 \sigma^2}{(\mu_\alpha - \mu_0)^2} $$
'Statistics > Inferential Statistics' 카테고리의 다른 글
[Inferential Statistics] 모평균 및 모평균의 차에 대한 소표본 검정 및 강건성(robustness) (0) | 2025.02.21 |
---|---|
[Inferential Statistics] p-값(p-value) (0) | 2025.02.21 |
[Inferential Statistics] 기각역(rejection region) 설정 (0) | 2025.02.20 |
[Inferential Statistics] 가설 검정(hypothesis test) 및 1종 오류(type Ⅰ error)와 2종 오류(type Ⅱ error) 그리고 절차 (0) | 2025.02.19 |
[Inferential Statistics] 최대가능도법(method of maximum likelihood) (0) | 2025.02.14 |