가설 검정 (Hypothesis Test)
통계학의 목표는 모집단을 추정하기 위해 표본을 뽑고, 그 표본에 포함된 정보를 기반으로 모집단의 특징을 추론하며, 그 추론이 적절한지를 평가하는 것이다.
이를 위해서는 먼저 표본을 어떻게 잘 뽑을 것인지가 중요한데, 이를 위해 복원 추출, 비복원 추출, 랜덤 샘플링 등의 방법이 이야기되었다. 모집단의 특징을 파악하는 과정에서는 산포나 대푯값과 같은 개념이 사용되었다. 모집단의 특징을 효과적으로 확인하기 위해서는 표본의 특성을 분석해야 하며, 이를 위해 점추정량과 그 성질이 논의되었다.
이제 이러한 방법들을 종합하여 모집단을 추정하고, 그 결과가 신뢰할 만한지 검정해야 하는데, 이것을 가설 검정이라 한다. 좀 더 정확히는 어떤 모수의 값이나 확률분포에 대해 가설을 세우고, 조건 속에서 이 가설이 옳다고 주장하는 것이 가능한지를 표본 데이터의 통계적 확률로 결정하는 것이다. 따라서 여기서 가설은 모집단의 모수 혹은 분포에 대한 명제이다.
이러한 가설 검정은 말하자면 의사 결정이고, 통계학은 이 의사 결정을 돕는다. 이를테면 표본이 어떠한 주장과 일치하지 않는다는 것을 어떻게 알 수 있는가, 언제 가설을 기각하고 또 언제 기각하지 않아야 하는가, 혹은 판단을 보류하고 더 많은 표본을 뽑아야 하는가, 표본을 측정하기 위해 어떤 함수를 사용해야 하는가 등등에 관하여 통계학은 합리적인 답을 제공한다.
통계적 검정의 요소
• 귀무가설 (Null Hypothesis) - $ H_0 $
영가설이라고도 한다. 검정 대상이 되는 잠정적 주장 또는 가정을 말한다. 즉 검정에서 의심되는 주장이다. 예를 들어서 A 후보의 지지율이 50%가 나온다는 주장이 있고, 이를 검정한다하면 "A 후보의 지지율($p$)은 50% 이다 $ := H_0 : p = 0.5 $"가 귀무가설이 된다. 따라서 항상 $ =, \leq, \geq $ 중 하나를 포함한다.
현재 표본이 귀무가설을 받아들일만한 충분한 증거가 없다면 귀무가설을 기각한다. 단 주의해야 하는 것은 귀무가설을 기각한다는 것이 귀무가설이 거짓이라는 것은 아니라는 것이다. 귀무가설을 기각한다는 것은 단지 귀무가설을 참이라 주장할만한 충분한 근거가 없다는 뜻이다. 따라서 "귀무가설을 기각한다"의 반대는 "귀무가설을 채택한다"가 아니라 "귀무가설을 기각하지 않는다"가 정확하다. 즉 "귀무가설을 기각하지 않는다"는 "귀무가설이 참이 아니라 주장할 충분한 근거가 없다"는 말이다. 물론 편의상 "귀무가설을 채택한다"는 말을 흔히 사용한다.
• 대립가설 (Alternative Hypothesis) - $ H_a $ 또는 $ H_1 $
연구가설 혹은 대안가설이라고도 한다. 귀무가설과 상보적(complementary)인 관계로 귀무가설이 "A 후보의 지지율($p$)은 50% 이다 $ =: H_0 : p = 0.5 $"라면 대립가설은 "A 후보의 지지율은 50% 미만이다 $ =: H_1 : p < 0.5 $" 정도로 세울 수 있겠다. 따라서 항상 $ \neq, <, > $ 중 하나를 포함한다.
귀무가설이 틀렸다고 주장하는 가설이기에 귀무가설이 기각되면 채택하게 되는 가설이다.
• 검정통계량 (Test Statistic)
검정통계량은 통계적 의사 결정을 내리는 데 사용되는 표본 측정치의 함수이다. 일반적으로 표준정규분포, $t$-분포, 카이제곱분포, F-분포를 활용하며, 이들 분포의 누적확률값을 기준으로 검정이 이루어진다. 따라서 $ Z$-값, $t$-값, $\chi^2$-값, F-값이 검정통계량이 되는 경우가 많다.
• 기각역 (Rejection Region) - $ RR $
기각역은 귀무가설을 기각하는 검정통계량의 값이 속하는 구간을 의미한다. 즉, 검정 결과가 기각역에 속하면 귀무가설을 기각하고 대립가설을 채택하게 된다.
예를 들어, 귀무가설이 "A 후보의 지지율은 50%이다"라고 가정하자. 검정통계량을 "표본 중 A 후보를 지지하는 유권자 수 $ =: x $"라고 하면, 특정 값 $ k $ 보다 $ x $ 가 작을 때 귀무가설을 기각한다고 설정할 수 있다. 이때, 기각역은 $ x < k $ 를 만족하는 값들의 집합이 된다. 즉 $ RR = \{ x < k \} $ 이다.
의사결정 오류
• 1종 오류 (Type Ⅰ Error) - $ \alpha $
귀무가설, 즉 $ H_0 $ 가 참인데 기각하는 것이다. 1종 오류의 확률은 $ \alpha $ 로 나타내며 검정의 유의수준(significance level)이기도 하다.
• 2종 오류 (Type Ⅱ Error) - $\beta $
대립가설, 즉 $ H_a $ 가 참인데 귀무가설, 즉 $H_0 $ 를 기각하지 않는 것이다. 2종 오류의 확률은 $ \beta $ 로 나타내며 $ 1 -\beta $ 를 검정력(statistical power)이라 한다.
• 의사결정 오류의 관계
사실 | $ H_0 $ 기각 | $ H_0 $ 채택 |
$ H_0 $ 참 | 1종 오류 확률 = $ \alpha $ ( = 유의 수준) |
옳은 결정 확률 = $ 1 - \alpha $ |
$ H_0 $ 거짓 ($H_a $ 참) |
옳은 결정 확률 = $ 1 - \beta $ ( = 검정력) |
2종 오류 확률 = $ \beta $ |
가설검정 절차
- 귀무가설 $ H _0 $ 와 대립가설 $ H_a $ 설정
- 유의수준 $ \alpha $ 설정
- 검정통계량 계산
- 기각역 설정
- 통계적 의사결정
여기서 검정통계량 계산과 기각역 설정은 바뀌어도 큰 문제가 없지만 당연히 어떤 검정통계량을 사용할지에 대해서는 미리 설정해야 한다.
'Statistics > Inferential Statistics' 카테고리의 다른 글
[Inferential Statistics] 대표본 검정과 2종 오류 확률 및 표본 크기 결정 (0) | 2025.02.20 |
---|---|
[Inferential Statistics] 기각역(rejection region) 설정 (0) | 2025.02.20 |
[Inferential Statistics] 최대가능도법(method of maximum likelihood) (0) | 2025.02.14 |
[Inferential Statistics] 적률법(method of moments) (0) | 2025.02.14 |
[Inferential Statistics] 바수 정리(Basu theorem) (0) | 2025.02.14 |