확률론

[Mathematical Statistics] 코시-슈바르츠 부등식(Cauchy–Schwarz inequality)
·
Statistics/Mathematical Statistics
코시-슈바르츠 부등식 (Cauchy–Schwarz Inequality) 절대부등식으로 일반적인 형태는 아래와 같다.$$ \| v \| ^2 \| w \| ^2 \geq | v \cdot w | ^2 $$여기서 $ \| \| $ 는 벡터의 크기(참고링크)이고, $ \cdot $ 은 벡터의 내적(참고링크)이다.이를 확률론에 끌어와 사용할 때는 일반적으로 아래와 같이 사용한다.$$  E(X^2) E(Y^2) \geq E(XY)^2 $$증명은 다음과 같다.$ E[(Y-tX)^2] = E(Y^2)-2tE(XY)+t^2E(X^2) \geq 0 $위 식을 $ t $ 로 편미분하고 $ 0 $ 으로 놓으면 다음과 같다.$ \dfrac{\partial}{\partial t} E[(Y-tX)^2] = -2E(XY) + 2t..
[Mathematical Statistics] F-분포(F-distribution)
·
Statistics/Mathematical Statistics
F-분포 (F-distribution) 어떤 확률변수 $ W_1 $ 과 $ W_2 $ 가 독립이며 자유도가 각각 $ \nu_1 $, $\nu_2 $ 인 카이제곱분포를 따를 때 $ F $ 가 다음과 같이 정의된다면 $ F $ 는 분자의 자유도가 $ \nu_1 $ 이고 분모의 자유도가 $ \nu_2 $ 인 F-분포를 따른다.$$ F = \dfrac{W_1 / \nu_1}{W_2 / \nu_2} \sim F(\nu_1, \nu_2) $$즉 카이제곱분포를 따르는 두 확률변수의 비율이 F-분포를 따른다.참고로 당연하겠지만, $ F \sim F(\nu_1, \nu_2) $ 일 때 $ \dfrac{1}{F} \sim F(\nu_2, \nu_1) $ 이다. 더하여 F-분포의 누적분포를 $ F_\alpha $ 로 나타낸..
[Mathematical Statistics] t-분포(Student's t-distribution)
·
Statistics/Mathematical Statistics
$t$-분포 (Student's $t$-Distribution) 분포 자체와는 별 상관 없는 이야기지만 이름에 Student가 붙은 이유는 이 분포를 제안한 윌리엄 고셋이 해당 논문을 낼 때 가명으로 Student를 사용했기 때문이다.$ Z \sim N(0, 1) $ 과 $ W \sim \chi^2 (\nu) $ 에 대하여 $ Z $ 와 $ W $ 가 독립일 때 $ T = Z / \sqrt{W / \nu} $ 라면 $ T $ 가 $t$-분포를 따른다고 하며 다음과 같다.$$ T = \dfrac{Z}{\sqrt{W / \nu}} \sim t (\nu) $$이를 응용할 수 있다. i.i.d.인 $ X_i $ $(i = 1, 2, \dots, n) $ 에 대하여 $ X \sim N(\mu, \sigma^2) ..
[Mathematical Statistics] 카이제곱분포(chi-square distribution)
·
Statistics/Mathematical Statistics
카이제곱분포 (Chi-Square Distribution) 카이제곱분포는 감마분포의 특수한 형태이면서 $ k $ 개의 서로 독립적인 표준정규분포를 따르는 확률변수를 제곱한 다음 합하여 얻어지는 확률변수의 분포이다. 즉 $ X_i \sim N(\mu, \sigma^2) $ $ (i = 1, 2, \dots, n) $ 에 대하여 $ Z_i = (X_i - \mu) / \sigma $ 일 때 $ Z_i^2 $ 의 합, $ \sum_{i=1}^n Z_i^2 $ 은 자유도가 $ n $ 인 카이제곱분포를 따른다.$$ \sum_{i=1}^n Z_i^2 \sim \chi^2 (n) $$참고로 표본을 추출하여 만들어지는 표본분산 $ S^2 $ 을 이용한 $ (n-1)S^2 / \sigma^2 $ 은 자유도가 $ n-1 ..
[Mathematical Statistics] 표본평균과 표본분산의 표집분포
·
Statistics/Mathematical Statistics
표본평균의 표집분포 $ X_1, X_2, \cdots, X_n $ 이 평균이 $ \mu $ 이고, 분산이 $ \sigma^2 $ 인 정규분포에서의 크기가 $ n $ 인 확률분포라 할 때 표본평균인 $ \bar{X} $ 는 평균이 $ \mu_{\bar{X}} = \mu $ 이고, 분산이 $ \sigma_{\bar{X}}^2 = \dfrac{\sigma^2}{n} $ 인 정규분포를 따른다. 즉 다음과 같다.$$ \bar{X} \sim N \left(\mu, \frac{\sigma^2}{n} \right) $$더보기$ X_1, X_2, \cdots, X_n $ 은 평균이 $ \mu $ 이고 분산이 $ \sigma^2 $ 인 정규분포에서의 크기가 $ n $ 인 확률표본이기에 $ X_i $ 는 독립이고, $ E(..
[Mathematical Statistics] 표집분포(sampling distribution)
·
Statistics/Mathematical Statistics
표본평균 (Sample Mean) i.i.d. 확률변수 $ X_1, X_2, \cdots, X_n $ 에 대한 표본평균 $ \bar{X} $ 는 다음과 같다.$$ \bar{X} = \dfrac{1}{n} \sum_{i=1}^n X_i $$표본평균은 모평균을 추정하기 위해 사용된다. 표본분산 (Sample Variance) i.i.d. 확률변수 $ X_1, X_2, \cdots, X_n $ 에 대한 표본분산 $ S^2 $ 는 다음과 같다.$$ S^2 = \dfrac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 $$표본분산은 모분산을 추정하기 위해 사용된다.$ frac{1}{n} $ 이 아니라 $ \frac{1}{n-1} $ 인 이유는 불편추정량 때문이다. 통계량 (Statistic..
[Mathematical Statistics] 마할라노비스 거리(Mahalanobis distance)
·
Statistics/Mathematical Statistics
마할라노비스 거리 (Mahalanobis Distance) 일반적으로 거리를 나타낼 때는 유클리드 거리(Euclidean distance)를 많이 사용한다. 그런데 유클리드 거리는 확률 정보를 반영하지 않기에 확률론적 거리로는 마할라노비스 거리를 많이 사용한다.마할라노비스 거리는 평균에서 얼마나 많은 표준편차만큼 떨어져 있는지를 나타낸다. 즉 나타날 확률이 작을수록 거리가 멀다. 이때 변량들끼리의 상관관계를 고려하게 된다. 즉 변량의 분산과 변량들끼리의 공분산을 반영한다.벡터 $ \mathbf{x} $, $ \mathbf{y} $ 의 공분산 행렬이 $ \mathbf{\Sigma} $ 일 때 마할라노비스 거리는 다음과 같다.$$ d_M = \sqrt{(\mathbf{x} - \mathbf{y} ) \mat..
[Mathematical Statistics] 다변량 정규분포(MVN, multivariate normal distribution)
·
Statistics/Mathematical Statistics
다변량 정규분포 다변량 정규분포는 확률변수의 벡터인 확률벡터의 모든 선형결합이 정규분포를 따르면 확률벡터는 다변량 정규분포를 갖는다고 한다. 예를 들어 확률벡터가 $ \mathbf{X} = (X_1, X_2, \cdots, X_D) $ 이고, $ k_1, k_2, \cdots, k_D $ 가 임의의 상수일 때 $ Y $ 가 다음과 같으면서 정규분포를 가지면 $ \mathbf{X} $ 는 다변량 정규분포를 가진다.$$ Y = k_1 X_1 + k_2 X_2 + \cdots + k_D X_D $$만약 $ Y $ 가 상수라면 분산이 $ 0 $ 인 퇴화(degenerate) 정규분포이긴 하지만, 그럼에도 정규분포를 갖는 것으로 간주하며, $ D = 2 $ 인 경우는 이변량 정규분포라 한다.이러한 다변량 정규분포..
[Mathematical Statistics] 이변량 정규분포(bivariate normal distribution)
·
Statistics/Mathematical Statistics
이변량 정규분포 이변량 정규분포는 두 확률변수의 분포가 정규분포를 따르는 확률분포로 다변량 정규분포의 특수한 형태이다.확률변수 $ X_1, X_2 $ 가 각각 $ N(\mu_1, \sigma_1^2) $, $N(\mu_2, \sigma_2^2)$ 를 따르며 이변량 정규분포를 따른다면 이변량 밀도함수는 다음과 같다.$$ f(x_1, x_2) = \dfrac{e^{-q(x_1, x_2)/2}}{2\pi \sigma_1 \sigma_2 \sqrt{1-\rho ^2 }} \qquad (-\infty $$ q(x_1, x_2) = \dfrac{1}{1-\rho^2} \left[ \dfrac{(x_1 - \mu_1)^2}{\sigma_1^2} - 2 \rho \dfrac{(x_1 - \mu_1)(x_2 - \mu_..
[Mathematical Statistics] 조건부 기댓값 및 분산과 최소제곱 회귀직선과의 관계
·
Statistics/Mathematical Statistics
조건부 기댓값 및 분산과 최소제곱 회귀직선과의 관계  $ X $ 와 $ Y $ 가 결합확률함수 $ p (x, y) $ 를 가지는 공동이산 확률변수라 가정하면 조건부 기댓값과 조건부 분산은 다음과 같을 것이다.$ \mu_{Y \mid x} = E(Y \mid x) = \sum_{y} y p(y \mid x) $$ \sigma^2 _{Y \mid x} = E \left( [ Y - E(Y \mid x)^2 \mid x \right) = \sum_y [y-E(Y \mid x)]^2 p(y \mid x)  = E(Y^2 \mid x) - E(Y \mid x)^2 $이제 $ E ( Y \mid x) $ 를 $ x $ 단독의 함수, $ E(X \mid y) $ 를 $ y $ 단독의 함수라 할 수 있다. 이때 $ E..
애스터로이드
'확률론' 태그의 글 목록 (2 Page)