초기하분포 (Hypergeometric Distribution)
크기가 $ N $ 인 모집단에 $ r $ 개의 관심집단이 포함되어 있고, 여기서 $ n $ 개의 표본을 비복원추출하였을 때, 표본에서 관심집단의 수를 확률변수 $ X $ 라 하면, 확률변수 $ X $ 가 초기하분포를 따른다고 한다.
$ X \sim H(N, n, r) $ or $ X \sim \text{HGeom}(N, n, r) $
확률변수 $ X $ 가 모집단 크기가 $ N $, 모집단 내 관심집단의 크기가 $ r $, 표본의 크기가 $ n $ 인 초기하분포를 따를 때 위와 같이 나타낸다. 단 누구는 모집단의 크기 대신 모집단에서 관심집단의 크기를 제외한 크기, 즉 $ N - r $ 을 사용하기도 하며, $ N $, $ n $, $ r $ 순서 역시 고정되어 있지 않고, 사람마다, 텍스트마다 다르게 쓰일 수 있으므로 주의가 필요하다.
중요한 것은 비복원추출을 한다는 것이다. 만약 복원추출을 한다면 이항분포를 따를 것이다. 복원추출할 때 고정된 시행횟수를 기준으로 하면 이항분포를 따랐고, 고정된 성공횟수를 기준으로 하면 음이항분포를 따랐다. 초기하분포 역시 비슷하게 비복원추출할 때 고정된 성공횟수를 기준으로 하면 음초기하분포(negative hypergeometric distribution)를 따른다.
초기하분포도 이산확률분포이다.
비복원추출과 시행의 독립성
유한모집단에서 표본을 비복원추출할 때를 가정하자.
표본의 크기가 모집단에 비해 상대적으로 크면, 예를 들어 10% 이상이라 하면, 나중 시행에서 성공(원하는 사건이 발생하는 것)할 조건부확률은 이전 시행에서의 성공 횟수에 의해 영향을 상대적으로 크게 받고, 따라서 각 시행은 종속적이게 된다.
표본의 크기가 모집단에 비해 상대적으로 작다면, 여전히 종속적이긴 하지만, 나중 시행의 조건부확률은 이전 시행의 결과에 영향을 적게 받게 되고, 거의 동일하게 유지된다. 즉 각 시행은 근사적으로 독립이다.
초기하분포에 이를 적용하여 본다면, 모집단의 크기 $ N $ 이 표본의 크기 $ n $ 보다 훨씬 크다면 역시 각 시행이 근사적으로 독립이게 되고, 따라서 복원추출의 분포인 이항분포에 근사하게 된다.
초기하분포의 성질
$ X \sim H(N, n, r) $ 일 때 다음이 성립한다. 이때 $ p = \dfrac{r}{N} $ 이다.
- 확률질량함수
$$ p(x) = \dfrac{\binom{r}{x} \binom{N-r}{n-x}}{\binom{N}{n}} \quad x \leq \min{(n, r)} $$
- 기댓값
$$ E(X) = np $$
$ E(X) = \sum_{x=0}^n x p(x) $
$ = \sum_{x=1}^n x \dfrac{r!}{x!(r-x)!} \dfrac{\binom{N-r}{n-x}}{\binom{N}{n}} $
$ = \sum_{x=1}^n r \dfrac{(r-1)!}{(x-1)!((r-1-(x-1))!} \dfrac{\binom{(N-1-(r-1)}{(n-1)-(x-1)}}{\dfrac{N}{n} \binom{N-1}{n-1}} $
$ = \dfrac{nr}{N} \sum_{x=0}^{n-1} \dfrac{\binom{r-1}{(x-1)-1} \binom{(N-1)-(r-1)}{(n-1)-(x-1)}}{\binom{N-1}{n-1}} $
$ = \dfrac{nr}{N} = np $
$ \dfrac{nr}{N} $ 을 꺼내고 뒤 $ \sum $ 부분이 1 이 되는 이유는 모든 확률의 합이기 때문이다.
- 표준편차
$$ \sigma_X = \sqrt{np(1-p) \dfrac{N-n}{N-1}} $$
$ V(X) = E(X^2) - (E(X))^2 = [E(X^2) - E(X)] + E(X) - (E(X))^2 $
$ E(X^2) - E(X) = E[X(X-1)] $
$ E[X(X-1)] = \sum_{x=0}^n x(x-1) p(x) $
$ = \sum_{x=0}^n x(x-1) \dfrac{\binom{r}{x} \binom{N-r}{n-x}}{\binom{N}{n}} $
$ = \sum_{x=2}^n x(x-1) \dfrac{r!}{x!(r-x)!} \dfrac{\binom{N-r}{n-x}}{\binom{N}{n}} $
$ = \sum_{x=2}^n r(r-1) \dfrac{(r-2)!}{(x-2)!((r-2)-(x-2))!} \dfrac{\binom{(N-2)-(r-2)}{(n-2)-(x-2)}}{\frac{N(N-1)}{n(n-1)}\binom{N-2}{n-2}} $
$ = \dfrac{n(n-1)(r(r-1)}{N(N-1)} \sum_{x=0}^{n-2} \dfrac{\binom{r-2}{x}\binom{(N-2)-(r-2)}{(n-2)-x}}{\binom{N-2}{n-2}} $
$ = \dfrac{n(n-1)(r(r-1)}{N(N-1)} $
이제 다시 분산을 구하기 위해 위 값과 기댓값을 인용하면
$ V(X) = \dfrac{n(n-1)(r(r-1)}{N(N-1)} + \dfrac{nr}{N} - \left(\dfrac{nr}{N}\right)^2 $
$ = \dfrac{nr(N-r)(N-n)}{N^2(N-1)} $
정리하면
$ V(X) = \dfrac{N-n}{N-1} np(1-p) $
이때 $ \dfrac{N-n}{N-1} $ 을 유한모집단수정계수(finite population correction factor)라 한다.
이항분포로의 근사
초기하분포의 성질을 알아보면서 기댓값이 이항분포와 같고, 분산이 이항분포의 분산에 유한모집단수정계수 $ \dfrac{N-n}{N-1} $ 을 곱한 값이라는 것을 확인하였다. 또한 비복원추출과 시행의 독립성을 확인하면서 모집단의 크기 $ N $ 이 표본의 크기 $ n $ 보다 압도적으로 크다면 각 시행이 근사적으로 독립이라는 것 역시 확인하였다.
결국 $ N $ 이 압도적으로 크다면 유한모집단수정계수 $ \dfrac{N-n}{N-1} $ 이 1 에 가까워 진다. 즉 $ \lim_{N \to \infty} \dfrac{N-n}{N-1} = 1 $ 이다. 또한 $ N $ 이 커지면서 $ r $ 역시 같은 비율로 커지게 된다. 이를 초기하분포의 확률질량함수에 대해 풀이해보면 다음과 같은 결과가 나온다.
$$ \lim_{N \to \infty \\ r \to \infty} p(x) = \lim_{N \to \infty \\ r \to \infty} \dfrac{\binom{r}{x}\binom{N-r}{n-x}}{\binom{N}{n}} = \binom{n}{x} p^x(1-p)^{n-x} $$
따라서 초기하분포에서 모집단의 크기 $ N $ 이 압도적으로 크다면 이항분포로 근사할 수 있다.