기하분포 (Geometric Distribution)
성공확률이 $ p $ 인 베르누이 시행을 반복할 때, 즉 이항실험을 할 때 처음 성공할 때까지 시행 횟수를 확률변수 $ X $ 라 하면, 확률변수 $ X $ 가 기하분포를 따른다고 한다.
$$ X \sim \text{Geom}(p) $$
확률변수 $ X $ 가 성공확률이 $ p $ 인 기하분포를 따를 때 위와 같이 나타낸다. 일반적으로는 성공까지 시도한 횟수를 기준으로 기하분포를 말하지만, 처음 성공할 때 까지 실패한 횟수로 기하분포를 말하기도 하기 때문에 주의가 필요하다. 이항분포와 마찬가지로 이산확률분포이다.
지수분포와 같이 대표적인 무기억분포(memoryless distribution)인데, 무기억분포란 현재 상태에서 미래의 결과가 과거의 결과와 무관한 분포를 의미한다. 즉 어떤 사건이 발생한 시점 이후에 남은 기간의 분포가 그 사건이 발생하기 전의 상황과 상관없이 동일한 분포를 따르는 경우이다. 과거의 정보가 현재나 미래에 영향을 미치기 않는다는 뜻이다.
기하분포의 성질
$ X \sim \text{Geom}(p) $ 일 때 다음이 성립한다.
- 확률질량함수
$$ p_X(x) = (1-p)^{x-1}p $$
$ x $ 번째에 성공하기 위해서 $ x - 1 $ 번 실패한 후 한 번 성공했으니 확률질량함수는 위와 같다.
- 누적분포함수 (CDF)
$$ F_X(x) = 1-(1-p)^{\lfloor x \rfloor} \qquad x \geq 1 $$
- 기댓값
$$ E(X) = \dfrac{1}{p} $$
- 표준편차
$$ \sigma_X = \dfrac{\sqrt{1-p}}{p} $$
- 적률생성함수 (MGF)
$$ M_X(t) = \dfrac{pe^t}{1-(1-p)e^t} $$
$ M_X(t) = \sum_{x=1}^\infty p(x) e^{tx} $
$ = \sum_{x=1}^\infty (1-p)^{x-1} p e^{tx} $
$ = pe^t \sum_{x=1}^\infty \left( (1-p)e^t\right)^{x-1} $
$ = \dfrac{pe^t}{1-(1-p)e^t} $
- 확률생성함수 (PGF)
$$ G_X(t) = \dfrac{pt}{1-(1-p)t} $$
$ G_X(t) = \sum_{x=1}^\infty p(x) t^k $
$ = \sum_{x=1}^\infty (1-p)^{x-1} p t^x $
$ = pt \sum_{x=1}^\infty ((1-p)t)^{k-1} $
$ = \dfrac{pt}{1-(1-p)t} $
음이항분포 (Negative Binomial Distribution)
성공확률이 $ p $ 인 베르누이 시행을 반복할 때, 즉 이항실험을 할 때 성공이 특정 횟수 $ r $ 만큼 나올 때가지의 시행 횟수를 확률변수 $ X $ 라 하면, 확률변수 $ X $ 가 음이항분포를 따른다고 한다.
$ X \sim NB(r, p) $ or $ X \sim \text{NBin}(r, p) $
확률변수 $ X $ 가 성공확률이 $ p $ 이고 성공횟수가 $ r $ 인 음이항분포를 따를 때 위와 같이 나타낸다. 이항분포와 마찬가지로 이산확률분포이다.
다시 생각해본다면 음이항분포는 성공이 특정 횟수만큼 나오는 분포이고, 성공이 나올 때까지의 횟수는 기하분포를 따르기 때문에 확률변수 $ X $ 가 성공확률이 $ p $ 이고, 성공횟수가 $ r $ 인 음이항분포를 따른다면 $ X = Y_1 + Y_2 + \cdots + Y_r $ 로 나타낼 수 있고, 이때 $ Y_i $ $ (i = 1, 2, 3, \dots, r) $ 는 성공확률이 $ p $ 인 i.i.d.를 만족하는 기하분포를 따른다.
기하분포와 마찬가지로 총시행횟수가 아니라 실패횟수를 기준으로 삼기도 하기 때문에 주의가 필요하다.
음이항분포의 성질
$ X \sim NB(r, p) $ 일 때 다음이 성립한다.
- 확률질량함수
$$ p_X(x) = \binom{x-1}{r-1}p^r(1-p)^{x-r} $$
$ A $ 를 '처음 $ x-1 $ 시행에 $ r-1 $ 성공이 있음'으로 정의하고, $ B $ 를 '시행 $ x $ 에서 성공이 나옴'으로 정의한다면 $ P(B) = p $ 이다.
$ A $ 와 $ B $ 가 독립사건이므로 $ P(A) = \binom{x-1}{r-1}p^{r-1}(1-p)^{x-r} $ 이며, 따라서 $ p(x) = \binom{x-1}{r-1}p^r(1-p)^{x-r} $ 이다.
- 기댓값
$$ E(X) = \dfrac{r}{p} $$
$ X $ 를 기하분포를 따르는 확률변수 $ Y_i $ $ (i = 1, 2, 3, \dots, r ) $ 의 합으로 생각한다면
$ E(X) = E(Y_1) + E(Y_2) + \cdots + E(Y_r) $
$ = \dfrac{1}{p} + \dfrac{1}{p} + \cdots + \dfrac{1}{p} $
$ = \dfrac{r}{p} $
- 표준편차
$$ \sigma_X = \dfrac{\sqrt{r(1-p)}}{p} $$
- 적률생성함수 (MGF)
$$ M_X(t) = \left( \dfrac{pe^t}{1-(1-p)e^t} \right) ^r \quad \quad \text{for } t < -\log(1-p) $$
$ M_X(t) = \sum_{x=r}^{\infty} \binom{x-1}{r-1} (1-p)^{x-r} p^r e^{tx} $
$ = p^r \sum_{x=r}^\infty \binom{x-1}{r-1} (1-p)^{x-r} e^{tx} $
$ = p^r \sum_{x=0}^\infty \binom{x+r-1}{r-1} (1-p)^k e^{t(x+r)} $
$ = p^r e^{tx} \sum_{x=0}^\infty \binom{x+r-1}{x-1} \left( (1-p)e^t\right)^x $
$ = \left( \dfrac{pe^t}{1-(1-p)e^t} \right) ^ r $
$ \because \sum_{x=0}^\infty \binom{x+r-1}{r-1} z^x = \dfrac{1}{(1-z)^r} \quad \quad \text{for } |z| < 1 $
- 확률생성함수 (PGF)
$$ G_X(t) = \left( \dfrac{pt}{1-(1-p)t} \right) ^ r $$
'Statistics > Mathematical Statistics' 카테고리의 다른 글
[Mathematical Statistics] 초기하분포(hypergeometric distribution) (0) | 2024.10.10 |
---|---|
[Mathematical Statistics] 표시확률변수와 근본가교 (0) | 2024.10.10 |
[Mathematical Statistics] 베르누이분포(Bernoulli distribution)와 이항분포(binomial distribution) (0) | 2024.10.09 |
[Mathematical Statistics] 확률생성함수(PGF) (0) | 2024.10.09 |
[Mathematical Statistics] 적률(moment)과 적률생성함수(MGF) (0) | 2024.10.08 |