다변량 정규분포
다변량 정규분포는 확률변수의 벡터인 확률벡터의 모든 선형결합이 정규분포를 따르면 확률벡터는 다변량 정규분포를 갖는다고 한다. 예를 들어 확률벡터가 $ \mathbf{X} = (X_1, X_2, \cdots, X_D) $ 이고, $ k_1, k_2, \cdots, k_D $ 가 임의의 상수일 때 $ Y $ 가 다음과 같으면서 정규분포를 가지면 $ \mathbf{X} $ 는 다변량 정규분포를 가진다.
$$ Y = k_1 X_1 + k_2 X_2 + \cdots + k_D X_D $$
만약 $ Y $ 가 상수라면 분산이 $ 0 $ 인 퇴화(degenerate) 정규분포이긴 하지만, 그럼에도 정규분포를 갖는 것으로 간주하며, $ D = 2 $ 인 경우는 이변량 정규분포라 한다.
이러한 다변량 정규분포를 평균벡터 $ \boldsymbol{\mu} $ 와 공분산 행렬 $ \mathbf{\Sigma} $ 로 나타내면 다음과 같이 나타낸다.
$$ \mathbf{X} \sim N (\boldsymbol{\mu}, \mathbf{\Sigma}) $$
간략하게 $ \mathbf{X} \sim \operatorname{MVN} $ 으로 나타내기도 한다.
그리고 $ \mathbf{X} $ 가 다변량 정규분포를 따르면 $ \mathbf{X} $ 의 부분벡터 또한 다변량 정규분포를 따른다.
다변량 정규분포의 성질
$ \mathbf{X} \sim N(\boldsymbol{\mu}, \mathbf{\Sigma} ) $ 이고 확률벡터의 차원이 $ D $ 일 때 다음이 성립한다.
- 확률밀도함수 (PDF)
$$ f_{\mathbf{X}}(\mathbf{x}) = \dfrac{1}{(2\pi)^{D/2} | \mathbf{\Sigma} |^{1/2}} \exp \left[ - \dfrac{1}{2} (\mathbf{x} - \boldsymbol{\mu} )^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right] $$
$ | \mathbf{\Sigma} | $ 는 공분산 행렬식
$ \Sigma^{-1} $ 은 공분산 역행렬
$ (\mathbf{x} - \boldsymbol{\mu} )^T \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) $ 는 마할라노비스 거리(Mathalanobis distance)
- 평균벡터
$$ \boldsymbol{\mu} = (\mu_1, \mu_2, \cdots, \mu_D) $$
- 공분산 행렬
$$ \mathbf{\Sigma} = \operatorname{Cov}(\mathbf{X}) = \begin{bmatrix} V(X_1) & \operatorname{Cov}(X_1, X_2) & \cdots & \operatorname{Cov}(X_1, X_D) \\ \operatorname{Cov}(X_2, X_1) & V(X_2) & \cdots & \operatorname{Cov}(X_2, X_D) \\ \vdots & \vdots & \ddots & \vdots \\ \operatorname{Cov}(X_D, X_1) & \operatorname{Cov}(X_D, X_2) & \cdots & V(X_D) \end{bmatrix} $$
$ \operatorname{Cov}(\mathbf{X}) = \operatorname{Cov}(X_1, X_2, \cdots, X_D) $
$ = E \left[ (\mathbf{X}-E[\mathbf{X}])(\mathbf{X}-E[\mathbf{X}])^T \right] $
$ = E [ \mathbf{X}\mathbf{X}^T - E(\mathbf{X})\mathbf{X}^T - \mathbf{X} E(\mathbf{X})^T + E(\mathbf{X})E(\mathbf{X})^T ] $
$ = E ( \mathbf{X} \mathbf{X}^T ) - E(\boldsymbol{\mu})E( \mathbf{X}^T) - E(\mathbf{X}) E( \boldsymbol{\mu}^T ) + E ( \boldsymbol{\mu} \boldsymbol{\mu}^T ) $
$ = E(\mathbf{X}\mathbf{X}^T) - \boldsymbol{\mu}\boldsymbol{\mu}^T -\boldsymbol{\mu}\boldsymbol{\mu}^T + \boldsymbol{\mu}\boldsymbol{\mu}^T $
$ = E(\mathbf{X}\mathbf{X}^T) - \boldsymbol{\mu}\boldsymbol{\mu}^T $
$ = \begin{bmatrix} E(X_1X_1) & \cdots & E(X_1X_D) \\ \vdots & \ddots & \vdots \\ E(X_DX_1) & \cdots & E(X_DX_D) \end{bmatrix} - \begin{bmatrix} E(X_1)E(X_1) & \cdots & E(X_1)E(X_D) \\ \vdots & \ddots & \vdots \\ E(X_D)E(X_1) & \cdots & E(X_D)E(X_D) \end{bmatrix} $
$ = \begin{bmatrix} E(X_1^2)-E(X_1)^2 & E(X_1X_2)-E(X_1)E(X_2) & \cdots & E(X_1X_D)-E(X_1)E(X_D) \\ E(X_2X_1)-E(X_2)E(X_1) & E(X_2^2) - E(X_2)^2 & \cdots & \vdots \\ \vdots & \vdots & \ddots & \vdots \\ E(X_DX_1) -E(X_D)E(X_1) & E(X_DX_2)-E(X_D)E(X_2) & \cdots & E(X_D^2)-E(X_D)^2 \end{bmatrix} $
$ = \begin{bmatrix} V(X_1) & \operatorname{Cov}(X_1, X_2) & \cdots & \operatorname{Cov}(X_1, X_D) \\ \operatorname{Cov}(X_2, X_1) & V(X_2) & \cdots & \operatorname{Cov}(X_2, X_D) \\ \vdots & \vdots & \ddots & \vdots \\ \operatorname{Cov}(X_D, X_1) & \operatorname{Cov}(X_D, X_2) & \cdots & V(X_D) \end{bmatrix} $
- 결합 적률생성함수 (joint MGF)
$$ M_\mathbf{X}(\mathbf{t}) = E\left( e^{\mathbf{t}^T \mathbf{X}} \right) = E \left( e^{t_1X_1 + \cdots + t_D X_D} \right) $$
단 이 기댓값은 $ \mathbb{R}^D $ 의 원점(origin)을 포함하는 상자 내에서 유한해야 하며, 그렇지 않으면 결합 적률생성함수는 존재하지 않는다.
상관관계
만약 확률벡터 $ \mathbf{X} $ 와 $ \mathbf{Y} $ 가 독립이면서 각각 다변량 정규분포를 따르면 이들을 이어붙인 확률벡터 $ \mathbf{W} = (X_1, \cdots, X_{D_\mathbf{X}} , Y_1, \cdots, Y_{D_\mathbf{Y}} ) $ 는 다변량 정규분포를 따른다.
확률벡터 내에서 상관관계가 없다는 것은 독립을 의미한다. 즉 $ \mathbf{X} \sim \operatorname{MVN} $ 을 $ \mathbf{X} = ( \mathbf{X}_1, \mathbf{X}_2 ) $, 즉 부분벡터로 나눠 쓸 수 있을 때, $ \mathbf{X}_1 $ 의 성분들이 $ \mathbf{X}_2 $ 의 성분들과 상관관계가 없으면 $ \mathbf{X}_1 $ 과 $ \mathbf{X}_2 $ 는 독립이다.
주변분포
확률벡터 $ \mathbf{X} $ 가 다변량 정규분포를 따르면, 즉 $ \mathbf{X} \sim N(\mathbf{\mu}, \mathbf{\Sigma}) $ 라면 확률벡터의 원소인 각 $ X_i $ $(i = 1, 2, \cdots, n) $ 의 주변분포는 정규분포이다.
그러나 역으로 $ X_i $ 의 주변분포가 정규분포라 해서 확률벡터가 다변량 정규분포를 따르지는 않으니 주의해야 한다.
예시
$ Z $ 와 $ W $ 가 독립인 표준정규확률변수라 하면 독립인 정규확률변수의 합이 정규분포를 따르므로 $ (Z, W) $ 인 확률벡터는 다변량 정규분포인 이변량 정규분포를 따른다.
또한 $ (2Z + 7W, 5Z + 3W) $ 역시 이변량 정규분포를 따른다. 왜냐하면 임의의 선형결합 $ t_1 (2Z + 7W) $ $+$ $ t_2 (5Z + 3W) $ 를 $ Z $ 와 $ W $ 의 선형결합 $ (2t_1 + 5t_2) Z $ $+$ $ (7t_1 + 3t_2) W $ 로 나타낼 수 있기 때문이다.