정규분포 (Normal Distiribution)
확률변수 $ X $ 의 밀도함수가 $ \sigma > 0 $ 와 $ -\infty < \mu < \infty $ 에 대해 다음과 같다면 확률변수 $ X $ 가 정규분포를 따른다고 한다.
$$ f(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \qquad -\infty < x < \infty $$
또한 다음과 같이 확률변수 $ X $ 가 기댓값이 $ \mu $ 이고, 표준편차가 $ \sigma $ 인 정규분포를 따름을 나타낸다.
$$ X \sim N(\mu, \sigma^2) $$
가우스가 처음 정립했기 때문에 가우스분포(Gaussian distribution)라고도 하나 정규분포라 부르는 것이 일반적이다.
확률밀도함수를 그래프로 그리면 아래와 같은데, 대칭적(symmetric)인 종 모양 그래프이다.
그림에서도 확인할 수 있듯이 기댓값이 커지면 그래프가 오른쪽으로 이동하고, 기댓값이 작으면 그래프가 왼쪽으로 이동한다. 표준편차가 커지면 그래프가 더 낮고 넓어지면서 퍼지게 되고, 표준편차가 작아지면 그래프가 더 높고 좁아지면서 모이게 된다.
정규분포를 따르는 두 확률변수가 독립이라면 두 확률변수의 합 역시 정규분포를 따른다.
표준정규분포 (Standard Normal Distribution)
정규분포를 따르는 확률변수 중 기댓값이 $ 0 $ 이고, 분산이 $ 1 $ 인 $ Z $ 가 있다고 하면 $ Z $ 는 표준정규분포를 따른다고 하며, 아래와 같이 나타낸다.
$$ Z \sim N(1, 0) $$
이름을 그때그때 다르게 쓰는 다른 확률변수와 다르게 표준정규분포를 따르는 확률변수 이름은 $ Z $ 로 쓰는 것 일반적이다. 또한 $ \Phi(z) $ 를 이용해서 누적분포함수(CDF)의 값을 나타내기도 한다.
위 정규분포의 그림 중 빨간색 선이 표준정규분포의 확률밀도함수에 대한 그림이다.
표준화 (Standardization)
정규분포를 따르는 확률변수를 표준정규분포를 따르는 확률변수로 위치-크기 변환을 하는 것을 말한다. 정규분포를 따르는 확률변수가 여러개 있을 때 각 확률변수의 기댓값과 분산이 다르다면 비교할 수 없기 때문에 표준화가 필요하다.
$ X \sim N(\mu, \sigma^2) $ 이고, $ Z \sim N(0, 1) $ 이면 다음이 성립한다.
$$ \dfrac{X - \mu}{\sigma} = Z \sim N(0, 1) $$
$$ \mu + \sigma Z = X \sim N(\mu, \sigma^2) $$
$ \mu_Z = E(Z) = E\left[ (X-\mu) / \sigma \right] = \left[ E(X) - \mu \right] / \sigma = 0 $
$ \sigma_Z^2 = V(Z) = E\left[ ((X-\mu)/ \sigma)^2 \right] = E\left[ ( X-\mu)^2 \right] / \sigma^2 = \sigma^2 / \sigma^2 = 1 $
따라서 $ X $ 의 기댓값과 분산이 존재한다면 분포와 상관없이 $ Z $ 의 기댓값과 분산은 각 $ 0 $ 과 $ 1 $ 이다.
표준정규분포의 누적확률은 표준정규분포표(링크)를 통해 확인하거나 프로그램을 통해 구할 수 있다.
정규분포 및 표준정규분포의 성질
$ X \sim N(\mu, \sigma^2) $ 이고 $ Z \sim N(0, 1) $ 일 때 다음이 성립한다.
- 확률밀도함수 (PDF)
$$ f_X(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \qquad -\infty < x < \infty $$
$$ \varphi(z) = \dfrac{1}{\sqrt{2 \pi}} e^{-\frac{z^2}{2}} \qquad -\infty < z < \infty $$
- 누적분포함수 (CDF)
$$ \Phi (z) = \int_{-\infty}^z \dfrac{1}{\sqrt{2 \pi}} e^{-\frac{t^2}{2}} dt $$
- 기댓값
$$ E(X) = \mu $$
$$ E(Z) = 0 $$
- 표준편차
$$ \sigma_X = \sigma $$
$$ \sigma_Z = 1 $$
- 적률생성함수 (MGF)
$$ M_X(t) = e^{\mu t + \frac{\sigma^2 t^2}{2}} = \exp \left( \mu t + \dfrac{\sigma^2 t^2}{2} \right) $$