섀넌 엔트로피 (Shannon Entropy)
정보 엔트로피(information entropy)는 확률변수의 불확실성(uncertainty)을 정량화하는 척도이다. 일반화된 레니 엔트로피(Rényi entropy)도 있지만, 확률론에서는 섀넌 엔트로피가 많이 사용된다.
이산확률변수 $ X $ 의 섀넌 엔트로피 $ H(X) $ 는 다음과 같이 정의된다.
$$ H(X) = - \sum_{x \in \mathcal{X}} p(x) \log p(x) $$
보통 $ \log $ 의 밑은 $ 2 $ 이며 $ \mathcal{X} $ 는 $ X $ 가 취할 수 있는 값들의 집합, 즉 치역이다. 또한 위 엔트로피의 정의에서 알 수 있지만, 엔트로피는 확률에만 의존한다.
이렇게 정의된 엔트로피 $ H(X) $ 는 $ - \log p(X) $ 의 기댓값이다. 즉 $ H(X) = E[-\log p(X)] $ 이다.
미분 엔트로피 (Differential Entropy)
확률변수 $ X $ 가 연속확률변수인 경우 섀넌 엔트로피를 특별히 미분 엔트로피(differential entropy)라 하며 다음과 같이 정의된다.
$$ h(x) = - \int_S f(x) \log f(x) dx $$
여기서 $ f(x) $ 는 $ X $ 의 확률밀도함수(PDF)이며, $ S $ 는 $ X $ 의 지지 집합($\operatorname{support}$)이다.
최대 엔트로피를 갖는 확률 분포
$ X $ 를 $ p_1, p_2, \cdots, p_n $ 의 확률로 서로 다른 값 $ a_1, a_2, \cdots, a_n $ 을 갖는 이산확률변수라 할 때, 즉 $ p_1 + p_2 + \cdots + p_n = 1 $ 일 때 섀넌 엔트로피 $ H(X) $ 는 다음과 같다.
$$ H(X) = E(h(X)) =- \sum_{i=1}^n p_i \log_2 p_i $$
그리고 $ X \sim \operatorname{DUnif}(a_1, a_2, \cdots, a_n) $ 이라 하면 다음과 같다.
$$ H(X) = - \sum_{i=1}^n \dfrac{1}{n} \log_2 \dfrac{1}{n} = \log_2 n $$
$ Y $ 를 $ p_1, p_2, \cdots, p_n $ 의 확률로 값 $ 1/p_1, 1/p_2, \cdots, 1/p_n $ 을 갖는 이산확률변수라 하면 다음이 성립한다.
$$ H(Y) = \sum_{i=1}^n p_i \log_2 (1/p_i) = E(\log_2(1/p_i)) = E(\log_2 Y) $$
그리고 $ E(Y) = \sum_{i=1}^n p_i (1/p_i) = n $ 이므로 옌센 부등식에 의해 다음이 성립한다.
$$ H(Y) = E(\log_2 Y) \leq \log_2 E(Y) = \log_2 n = H(X) $$
확률변수의 섀넌 엔트로피는 오직 확률에만 의존하므로 확률변수가 취하는 값들에 의존하지 않는다. 즉 받침을 $ 1/ p_1, 1/p_2, \cdots, p_n $ 에서 $ a_1, a_2, \cdots, a_n $ 으로 바꾸더라도 $Y $ 의 섀넌 엔트로피는 불변이다.
그러므로 $ a_1, a_2, \cdots, a_n $ 위에서 균일분포인 $ X $ 의 섀넌 엔트로피는 적어도 받침이 $ a_1, a_2, \cdots, a_n $ 인 어떤 다른 확률변수들만큼 크다.
즉 이산확률변수의 섀넌 엔트로피는 균일분포일 때 최대가 된다.
참고로 미분 엔트로피는 정규분포에서 최대가 된다.
쿨백-라이블러 발산 (Kullback-Leibler Divergence)
상대 엔트로피(relative entropy)라고도 한다. 정보 엔트로피의 차이를 계산하는 것으로 좀 더 풀어 설명하자면, 어떤 확률분포 $ P $ 가 있고, 샘플링 과정에서 그 분포를 근사적으로 표현하는 확률분포 $ Q$ 를 $ P $ 대신 사용할 경우 엔트로피 변화를 의미한다.
이산확률변수에 대하여 다음과 같이 정의된다.
$$ D_{KL} (p \| q ) = \sum_{x \in \mathcal{X}} p(x) \log \frac{p(x)}{q(x)} $$
연속확률변수에 대하여는 다음과 같이 정의된다.
$$ D_{KL} (p \| q) = \int_{x \in \mathcal{X}} p(x) \log \frac{p(x)}{q(x)} dx $$
어떤 의미인지에 대해 더 알아보기 위해 이산확률벡터 $ \mathbf{p} = (p_1, p_2, \cdots, p_n) $ 과 $ \mathbf{q} = (q_1, q_2, \cdots, q_n) $ 을 가정하고, 각 벡터를 각각 $ n $ 개의 상이한 값으로 구성된 받침을 갖는 확률변수에 대한 가능한 PMF라 간주하자. 그렇다면 $ \mathbf{p} $ 와 $ \mathbf{q} $ 간의 쿨백-라이블러 발산은 실제 확률분포 $ \mathbf{p} $ 대신 $ \mathbf{q} $ 를 사용하여 작업할 때 우리가 경험하는 평균 놀라움의 차이를 나타낸다.
$ D_{KL} (\mathbf{p} \| \mathbf{q}) = \sum_{i=1}^n p_i \log_2 \frac{p_i}{q_i} = \sum_{i=1}^n p_i \log_2 p_i - \sum_{i=1}^n p_i \log_2 q_i $
이는 $ H(p, q) = E_p ( - \log q) $ 로 정의된 교차 엔트로피(cross entropy)를 사용하여 확인할 수도 있다. 원래 분포가 가지는 엔트로피 $ H(\mathbf{p}) $ 와 $ \mathbf{p} $ 대신 $ \mathbf{q} $ 를 사용할 때의 교차 엔트로피 $ H(\mathbf{p}, \mathbf{q}) $ 의 차이를 구하면 다음과 같다.
$ D_{KL} (\mathbf{p} \| \mathbf{q}) = H(\mathbf{p}, \mathbf{q}) - H(\mathbf{p}) = \left( - \sum_{i=1}^n p_i \log_2 q_i \right) - \left( - \sum_{i=1}^n p_i \log_2 p_i \right) $
즉 처음과 같은 식이 나온다.
조금 더 나아가 확률변수 $ Y $ 를 설정하여 이용하면 다음과 같이 나타낼 수 있다.
$ D_{KL} (\mathbf{p} \| \mathbf{q}) = - \sum_{i=1}^n p_i \log_2 \frac{q_i}{p_i} = E( - \log_2 Y) $
이제 옌센 부등식을 적용하면 다음과 같다.
$ E(- \log_2 Y) \geq - \log_2 E(Y) = - \log 1 = 0 $
여기서 부등식 우변의 등호는 $ \mathbf{p} = \mathbf{q} $ 일 때만 성립한다. 즉 $ D_{KL} (\mathbf{p} \| \mathbf{q}) \geq 0 $ 이다.
말로 풀어 설명하면 참 확률로 작업할 때보다 틀린 확률로 작업할 때 평균적으로 더 놀라게 되는 것을 보여준다.
추가로 쿨백-라이블러 발산은 거리 개념이 아니다. 왜냐하면 $ D_{KL} (p \| q) $ 와 $ D_{KL} ( q\| p) $ 가 같다는 보장이 없기 때문이다. 앞선 식을 통해 보더라도 $ D_{KL} (p \| q) = H(p, q) - H(p) $ 였고, $ D_{KL} (q \| p) = H(q, p) - H(q) $ 였다.
옌센-섀넌 발산 (Jensen-Shannon Divergence)
젠센 혹은 젠슨-섀넌 발산이라고도 한다. 앞선 쿨백-라이블러 발산이 거리로 사용되지 못하기에 정의한 것으로 다음과 같다.
$$ D_{JS}( p\| q) = D_{JS} ( q \| p) = \frac{1}{2} D_{KL} (p \| M) + \frac{1}{2} D_{KL} (q \| M) \qquad \left( M = \dfrac{1}{2} (p+q) \right) $$
즉 두 개의 쿨백-라이블러 발산을 구하고 평균내는 것이다.
'Statistics > Mathematical Statistics' 카테고리의 다른 글
[Mathematical Statistics] 체르노프 부등식(Chernoff inequality) (0) | 2025.02.02 |
---|---|
[Mathematical Statistics] 마르코프 부등식(Markov inequality) (0) | 2025.02.02 |
[Mathematical Statistics] 옌센 부등식(Jensen inequality) (0) | 2025.02.02 |
[Mathematical Statistics] 코시-슈바르츠 부등식(Cauchy–Schwarz inequality) (0) | 2025.02.02 |
[Mathematical Statistics] F-분포(F-distribution) (0) | 2025.02.01 |