전체 글

[Mathematical Statistics] 마르코프 부등식(Markov inequality)
·
Statistics/Mathematical Statistics
마르코프 부등식 (Markov Inequality) 러시아 수학자 안드레이 마르코프의 이름을 딴 확률론의 절대부등식으로 간단하며 굉장히 많이 사용된다. 이는 확률변수 $X $ 과 양수 $ c $ 에 대하여 다음과 같다.$$ \dfrac{E(X)}{c} \geq P(X \geq c) $$증명은 다음과 같다.$ X \geq 0 $ 이므로 임의의 양수 $ c $ 에 대하여 다음 부등식이 성립한다.$ X \geq c \cdot I_{X \geq c} $여기서 기댓값을 취하면 다음과 같다.$ E(X) \geq E( c \cdot I_{X \geq c}) = c E(I_{X \geq c}) $근본가교를 적용하면 다음과 같다.$ E(X) \geq c P(X \geq c) $양변을 $ c $ 로 나누면 다음과 같다.$..
[Mathematical Statistics] 섀넌 엔트로피(Shannon entropy)와 미분 엔트로피(differential entropy) 그리고 쿨백-라이블러 발산(Kullback-Leibler divergence) 및 옌센-섀넌 발산(Jensen-Shannon divergence)
·
Statistics/Mathematical Statistics
섀넌 엔트로피 (Shannon Entropy) 정보 엔트로피(information entropy)는 확률변수의 불확실성(uncertainty)을 정량화하는 척도이다. 일반화된 레니 엔트로피(Rényi entropy)도 있지만, 확률론에서는 섀넌 엔트로피가 많이 사용된다.이산확률변수 $ X $ 의 섀넌 엔트로피 $ H(X) $ 는 다음과 같이 정의된다.$$ H(X) = - \sum_{x \in \mathcal{X}} p(x) \log p(x) $$보통 $ \log $ 의 밑은 $ 2 $ 이며 $ \mathcal{X} $ 는 $ X $ 가 취할 수 있는 값들의 집합, 즉 치역이다. 또한 위 엔트로피의 정의에서 알 수 있지만, 엔트로피는 확률에만 의존한다.이렇게 정의된 엔트로피 $ H(X) $ 는 $ - \l..
[Mathematical Statistics] 옌센 부등식(Jensen inequality)
·
Statistics/Mathematical Statistics
옌센 부등식 (Jensen Inequality) 일반적으로는 젠센 부등식으로 부른다. 덴마크 수학자 요한 옌센에 의해 발표된 부등식으로 옌센이라 부르는 것이 올바르겠으나 영어식 발음인 젠센으로 많이 불리는 것이다. 옌센 부등식은 다음과 같다.확률변수 $X $ 에 대하여 $ g $ 가 볼록(convex) 함수라면 $ E(g(X)) \geq g(E(X)) $ 이다. 만일 $ g $ 가 오목(concave) 함수라면 $ E(g(X)) \leq g(E(X)) $ 이다. 두 경우 모두에서 등식이 성립하는 유일한 조건은 확률 $ 1 $ 로 $ g(X) = a + bX $ 가 성립하는 상수 $ a $ 와 $ b $ 가 존재하는 것이다. 증명은 다음과 같다.만일 $ g $ 가 볼록 함수라면 $ g $ 에 대한 모든 접..
[Mathematical Statistics] 코시-슈바르츠 부등식(Cauchy–Schwarz inequality)
·
Statistics/Mathematical Statistics
코시-슈바르츠 부등식 (Cauchy–Schwarz Inequality) 절대부등식으로 일반적인 형태는 아래와 같다.$$ \| v \| ^2 \| w \| ^2 \geq | v \cdot w | ^2 $$여기서 $ \| \| $ 는 벡터의 크기(참고링크)이고, $ \cdot $ 은 벡터의 내적(참고링크)이다.이를 확률론에 끌어와 사용할 때는 일반적으로 아래와 같이 사용한다.$$  E(X^2) E(Y^2) \geq E(XY)^2 $$증명은 다음과 같다.$ E[(Y-tX)^2] = E(Y^2)-2tE(XY)+t^2E(X^2) \geq 0 $위 식을 $ t $ 로 편미분하고 $ 0 $ 으로 놓으면 다음과 같다.$ \dfrac{\partial}{\partial t} E[(Y-tX)^2] = -2E(XY) + 2t..
[Mathematical Statistics] F-분포(F-distribution)
·
Statistics/Mathematical Statistics
F-분포 (F-distribution) 어떤 확률변수 $ W_1 $ 과 $ W_2 $ 가 독립이며 자유도가 각각 $ \nu_1 $, $\nu_2 $ 인 카이제곱분포를 따를 때 $ F $ 가 다음과 같이 정의된다면 $ F $ 는 분자의 자유도가 $ \nu_1 $ 이고 분모의 자유도가 $ \nu_2 $ 인 F-분포를 따른다.$$ F = \dfrac{W_1 / \nu_1}{W_2 / \nu_2} \sim F(\nu_1, \nu_2) $$즉 카이제곱분포를 따르는 두 확률변수의 비율이 F-분포를 따른다.참고로 당연하겠지만, $ F \sim F(\nu_1, \nu_2) $ 일 때 $ \dfrac{1}{F} \sim F(\nu_2, \nu_1) $ 이다. 더하여 F-분포의 누적분포를 $ F_\alpha $ 로 나타낸..
[Mathematical Statistics] t-분포(Student's t-distribution)
·
Statistics/Mathematical Statistics
$t$-분포 (Student's $t$-Distribution) 분포 자체와는 별 상관 없는 이야기지만 이름에 Student가 붙은 이유는 이 분포를 제안한 윌리엄 고셋이 해당 논문을 낼 때 가명으로 Student를 사용했기 때문이다.$ Z \sim N(0, 1) $ 과 $ W \sim \chi^2 (\nu) $ 에 대하여 $ Z $ 와 $ W $ 가 독립일 때 $ T = Z / \sqrt{W / \nu} $ 라면 $ T $ 가 $t$-분포를 따른다고 하며 다음과 같다.$$ T = \dfrac{Z}{\sqrt{W / \nu}} \sim t (\nu) $$이를 응용할 수 있다. i.i.d.인 $ X_i $ $(i = 1, 2, \dots, n) $ 에 대하여 $ X \sim N(\mu, \sigma^2) ..
[Mathematical Statistics] 카이제곱분포(chi-square distribution)
·
Statistics/Mathematical Statistics
카이제곱분포 (Chi-Square Distribution) 카이제곱분포는 감마분포의 특수한 형태이면서 $ k $ 개의 서로 독립적인 표준정규분포를 따르는 확률변수를 제곱한 다음 합하여 얻어지는 확률변수의 분포이다. 즉 $ X_i \sim N(\mu, \sigma^2) $ $ (i = 1, 2, \dots, n) $ 에 대하여 $ Z_i = (X_i - \mu) / \sigma $ 일 때 $ Z_i^2 $ 의 합, $ \sum_{i=1}^n Z_i^2 $ 은 자유도가 $ n $ 인 카이제곱분포를 따른다.$$ \sum_{i=1}^n Z_i^2 \sim \chi^2 (n) $$참고로 표본을 추출하여 만들어지는 표본분산 $ S^2 $ 을 이용한 $ (n-1)S^2 / \sigma^2 $ 은 자유도가 $ n-1 ..
[Mathematical Statistics] 표본평균과 표본분산의 표집분포
·
Statistics/Mathematical Statistics
표본평균의 표집분포 $ X_1, X_2, \cdots, X_n $ 이 평균이 $ \mu $ 이고, 분산이 $ \sigma^2 $ 인 정규분포에서의 크기가 $ n $ 인 확률분포라 할 때 표본평균인 $ \bar{X} $ 는 평균이 $ \mu_{\bar{X}} = \mu $ 이고, 분산이 $ \sigma_{\bar{X}}^2 = \dfrac{\sigma^2}{n} $ 인 정규분포를 따른다. 즉 다음과 같다.$$ \bar{X} \sim N \left(\mu, \frac{\sigma^2}{n} \right) $$더보기$ X_1, X_2, \cdots, X_n $ 은 평균이 $ \mu $ 이고 분산이 $ \sigma^2 $ 인 정규분포에서의 크기가 $ n $ 인 확률표본이기에 $ X_i $ 는 독립이고, $ E(..
[Mathematical Statistics] 표집분포(sampling distribution)
·
Statistics/Mathematical Statistics
표본평균 (Sample Mean) i.i.d. 확률변수 $ X_1, X_2, \cdots, X_n $ 에 대한 표본평균 $ \bar{X} $ 는 다음과 같다.$$ \bar{X} = \dfrac{1}{n} \sum_{i=1}^n X_i $$표본평균은 모평균을 추정하기 위해 사용된다. 표본분산 (Sample Variance) i.i.d. 확률변수 $ X_1, X_2, \cdots, X_n $ 에 대한 표본분산 $ S^2 $ 는 다음과 같다.$$ S^2 = \dfrac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 $$표본분산은 모분산을 추정하기 위해 사용된다.$ frac{1}{n} $ 이 아니라 $ \frac{1}{n-1} $ 인 이유는 불편추정량 때문이다. 통계량 (Statistic..
[Mathematical Statistics] 마할라노비스 거리(Mahalanobis distance)
·
Statistics/Mathematical Statistics
마할라노비스 거리 (Mahalanobis Distance) 일반적으로 거리를 나타낼 때는 유클리드 거리(Euclidean distance)를 많이 사용한다. 그런데 유클리드 거리는 확률과 무관한 거리이기에 확률론적 거리로는 마할라노비스 거리를 많이 사용한다.마할라노비스 거리는 평균에서 얼마나 많은 표준편차만큼 떨어져 있는지를 나타낸다. 즉 나타날 확률이 작을 수록 거리가 멀다. 이때 변량들끼리의 상관관계를 고려하게 된다. 즉 변량의 분산과 변량들끼리의 공분산을 반영한다.벡터 $ \mathbf{x} $, $ \mathbf{y} $ 의 공분산 행렬이 $ \mathbf{\Sigma} $ 일 때 마할라노비스 거리는 다음과 같다.$$ d_M = \sqrt{(\mathbf{x} - \mathbf{y} )^T \ma..
애스터로이드
인공지능은 전기양의 꿈을 꾸는가