정규분포 (Normal Distiribution)

 

확률변수 $ X $ 의 밀도함수가 $ \sigma > 0 $ 와 $ -\infty < \mu < \infty $ 에 대해 다음과 같다면 확률변수 $ X $ 가 정규분포를 따른다고 한다.

$$ f(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \qquad -\infty < x < \infty $$

또한 다음과 같이 확률변수 $ X $ 가 기댓값이 $ \mu $ 이고, 표준편차가 $ \sigma $ 인 정규분포를 따름을 나타낸다.

$$ X \sim N(\mu, \sigma^2) $$

가우스가 처음 정립했기 때문에 가우스분포(Gaussian distribution)라고도 하나 정규분포라 부르는 것이 일반적이다.

확률밀도함수를 그래프로 그리면 아래와 같은데, 대칭적(symmetric)인 종 모양 그래프이다.

출처: https://ko.wikipedia.org/wiki/

그림에서도 확인할 수 있듯이 기댓값이 커지면 그래프가 오른쪽으로 이동하고, 기댓값이 작으면 그래프가 왼쪽으로 이동한다. 표준편차가 커지면 그래프가 더 낮고 넓어지면서 퍼지게 되고, 표준편차가 작아지면 그래프가 더 높고 좁아지면서 모이게 된다.

정규분포를 따르는 두 확률변수가 독립이라면 두 확률변수의 합 역시 정규분포를 따른다.

 


표준정규분포 (Standard Normal Distribution)

 

정규분포를 따르는 확률변수 중 기댓값이 $ 0 $ 이고, 분산이 $ 1 $ 인 $ Z $ 가 있다고 하면 $ Z $ 는 표준정규분포를 따른다고 하며, 아래와 같이 나타낸다.

$$ Z \sim N(1, 0) $$

이름을 그때그때 다르게 쓰는 다른 확률변수와 다르게 표준정규분포를 따르는 확률변수 이름은 $ Z $ 로 쓰는 것 일반적이다. 또한 $ \Phi(z) $ 를 이용해서 누적분포함수(CDF)의 값을 나타내기도 한다. 

위 정규분포의 그림 중 빨간색 선이 표준정규분포의 확률밀도함수에 대한 그림이다.

 


표준화 (Standardization)

 

정규분포를 따르는 확률변수를 표준정규분포를 따르는 확률변수로 위치-크기 변환을 하는 것을 말한다. 정규분포를 따르는 확률변수가 여러개 있을 때 각 확률변수의 기댓값과 분산이 다르다면 비교할 수 없기 때문에 표준화가 필요하다.

$ X \sim N(\mu, \sigma^2) $ 이고, $ Z \sim N(0, 1) $ 이면 다음이 성립한다.

$$ \dfrac{X - \mu}{\sigma} = Z \sim N(0, 1) $$

$$ \mu + \sigma Z = X \sim N(\mu, \sigma^2) $$

Open Proof

$ \mu_Z = E(Z) = E\left[ (X-\mu) / \sigma \right] = \left[ E(X) - \mu \right] / \sigma = 0 $

$ \sigma_Z^2 = V(Z) = E\left[ ((X-\mu)/ \sigma)^2 \right] = E\left[ ( X-\mu)^2 \right] / \sigma^2 = \sigma^2 / \sigma^2 = 1 $

따라서 $ X $ 의 기댓값과 분산이 존재한다면 분포와 상관없이 $ Z $ 의 기댓값과 분산은 각 $ 0 $ 과 $ 1 $ 이다.

표준정규분포의 누적확률은 표준정규분포표(링크)를 통해 확인하거나 프로그램을 통해 구할 수 있다.

 


정규분포 및 표준정규분포의 성질

 

$ X \sim N(\mu, \sigma^2) $ 이고 $ Z \sim N(0, 1) $ 일 때 다음이 성립한다.

  • 확률밀도함수 (PDF)

$$ f_X(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \qquad -\infty < x < \infty $$

$$ \varphi(z) = \dfrac{1}{\sqrt{2 \pi}} e^{-\frac{z^2}{2}} \qquad -\infty < z < \infty $$

  • 누적분포함수 (CDF)

$$ \Phi (z) = \int_{-\infty}^z \dfrac{1}{\sqrt{2 \pi}} e^{-\frac{t^2}{2}} dt $$

  • 기댓값

$$ E(X) = \mu $$

$$ E(Z) = 0 $$

  • 표준편차

$$ \sigma_X = \sigma $$

$$ \sigma_Z = 1 $$

  • 적률생성함수 (MGF)

$$ M_X(t) = e^{\mu t + \frac{\sigma^2 t^2}{2}} = \exp \left( \mu t + \dfrac{\sigma^2 t^2}{2} \right) $$

 

애스터로이드