다변량 정규분포 (MVN)
일반적으로 정규분포라 부르는 단변량 정규분포(univariate normal distribution)를 여러 변수로 일반화한 것이다. 다변량 데이터를 다룰 때 실제로 데이터의 분포가 다변량 정규분포를 따른다고 말하기는 어려울 수 있지만 다변량 정규부포는 강건한 근사(robust aproximation)를 제공하며 수학적으로 유리한 성질을 가진다.
또한 중심극한정리(CLT, 참고링크)에 따라 많은 다변량 통계량(multivariate statistics)은 표본 크기가 커질수록 다변량 정규분포에 수렴한다.
단변량 정규분포의 확률밀도함수는 아래와 같았다.
$$ f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( - \frac{(x-\mu)^2}{2 \sigma^2} \right) $$
여기서 $ \mu $ 는 평균, $ \sigma^2 $ 은 분산이고 일반적으로 $N(\mu, \sigma^2) $ 으로 표기한다.
다변량 정규분포의 확률밀도함수는 아래와 같다.
$$ f(\mathbf{x}) = \frac{1}{(2\pi)^{p / 2} \lvert \boldsymbol{\Sigma} \rvert^{1/2}} \exp \left( - \frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right) $$
여기서 $ \boldsymbol{\mu} $ 는 평균 벡터이고, $ \boldsymbol{\Sigma} $ 는 공분산 행렬이다. 일반적으로 $ N_p (\boldsymbol{\mu}, \boldsymbol{\Sigma} ) $ 로 표기한다.
신뢰영역 (Confidence Region)
2차원 이상에서 다변량 정규분포를 시각화하기는 어렵기 때문에 두 변수(bivariate normal distribution)로 된 사례를 통해 그래프로 시각화하면 아래와 같이 나타낼 수 있다.
위 그래프는 $ \boldsymbol{\mu} = \begin{bmatrix} 0 \\ 0 \end{bmatrix} $, $ \boldsymbol{\Sigma} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} $ 인 다변량 정규분포를 시각화한 것이다.
위 그래프는 $ \boldsymbol{\mu} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$, $\boldsymbol{\Sigma} = \begin{bmatrix} 1 & 0.5 \\ 0.5 & 1 \end{bmatrix} $ 인 다변량 정규분포를 시각화한 것이다. 양의 상관관계가 있기 때문에 등고선(contour)이 타원형으로 기울어져 있다.
여기서 등고선은 동일한 확률 밀도(probability mass)를 가지는 점들을 나타낸다. 다르게 말하면 두 변수의 조합 중 $ z $ 축, 즉 확률 밀도 함수의 높이가 같은 위치를 연결한 것이다.
이러한 등고선은 공분산 행렬의 고유값(eigenvalue)과 고유벡터(eigenvector)를 사용하여 구성할 수 있다. 타원(ellipsoid)의 축 방향은 공분산 행렬의 고유벡터 방향이고, 타원의 축 길이는 고유벡터의 일정 상수를 곱한 값에 비례한다.
수식적으로는 다음과 같이 $ \boldsymbol{\mu} $ 를 중심하고, 각 축이 $ \pm c \sqrt{\lambda_i \mathbf{e}_i} $ 인 타원형 등고선을 정의할 수 있다.
$$ (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) = c^2 $$
이렇게 정의된 등고선은 다변량 정규분포로부터 나온 데이터 포인트에 대한 신뢰영역(confidence region)을 시각화하는 데에 유용하다. 즉 다변량 신뢰영역은 타원형으로 표현되며 여기서 $ c $ 는 자유도 $ p $ 를 가진 카이제곱분포로부터 결정된다. 즉 다음과 같다.
$$ (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \sim \chi^2_\alpha (p) $$
위 식은 다변량 정규분포에서 확률 질량의 $ 1 - \alpha $ 를 포함하는 신뢰영역을 나타낸다. 즉 해당 타원 안에 데이터가 있을 확률이 $ 1 - \alpha $ 임을 의미한다.
다변량 정규분포 성질
벡터 $ \mathbf{x} $ 가 다변량 정규분포를 따른다면 여러 유용한 성질을 가진다.
$ \mathbf{x} $ 의 선형 결합(linear combinations) 역시 다변량 정규분포를 따른다. 즉 다음과 같다.
$$ \mathbf{x} \sim N_p (\boldsymbol{\mu}, \boldsymbol{\Sigma}) \quad \Longrightarrow \quad \mathbf{A}_{q \times p} \mathbf{x}_{p \times 1} \sim N_q (\mathbf{A}\boldsymbol{\mu}, \mathbf{A} \boldsymbol{\Sigma} \mathbf{A}^T ) $$
또한 $ \mathbf{x} $ 의 일부 성분(subset) 역시 다변량 정규분포를 따른다. 그러나 각 성분이 단변량 정규분포를 따른다고 그들의 결합분포가 반드시 다변량 정규분포를 따르지는 않는다.
만약 특정 변수간 공분산이 $ 0 $ 이면 해당 성분들은 독립적으로 분포한다. 이는 연속분포 중 다변량 정규분포만이 갖는 성질이다.
조건부 분포(conditional distribution)도 다변량 정규분포이다.
최대우도추정(MLE, maximun likelihood estimation)을 통해 평균 벡터를 추정하면 다음과 같다.
$$ \hat{\boldsymbol{\mu}} = \bar{\mathbf{x}} = \frac{1}{n} \sum_{i=1}^n \mathbf{x}_i = \frac{1}{n} \mathbf{X}^T \mathbf{1} $$
공분산 행렬을 추정하면 다음과 같다.
$$ \hat{\boldsymbol{\Sigma}} = \mathbf{S} = \frac{1}{n} \sum_{i=1}^n (\mathbf{x}_i - \bar{\mathbf{x}})(\mathbf{x}_i - \bar{\mathbf{x}})^T = \frac{1}{n} (\mathbf{X} - \mathbf{1} \bar{\mathbf{x}}^T)^T(\mathbf{X} - \mathbf{1} \bar{\mathbf{x}}^T) $$
이렇게 추정된 평균 벡터는 다변량 중심극한정리(multivariate central limit theorem)에 의해 평균이 $ \boldsymbol{\mu} $ 이고, $ \boldsymbol{\Sigma} / n $ 이 분산인 다변량 정규분포로 수렴한다.
따라서 다변량 데이터 $ \mathbf{x}_1, \mathbf{x}_2 , \cdots, \mathbf{x}_n $ 가 평균이 $ \boldsymbol{\mu} $, 공분산이 $ \boldsymbol{\Sigma} $ 인 독립 표본일 때 다음이 성립한다.
$$ \sqrt{n} (\mathbf{x} - \boldsymbol{\mu}) \sim N_p (\mathbf{0}, \boldsymbol{\Sigma}) $$
$$ n (\bar{\mathbf{x}} - \boldsymbol{\mu})^T \mathbf{S}^{-1} (\bar{\mathbf{x}} - \boldsymbol{\mu}) \sim \chi^2 (p) $$
또한 평균 벡터의 추정량과 공분산 행렬의 추정량 모두 충분통계량(sufficient statistics)이다. 단 데이터가 다변량 정규분포를 따를 때만 유효하다.