Statistics/Mathematical Statistics

[Mathematical Statistics] 표본평균과 표본분산의 표집분포
·
Statistics/Mathematical Statistics
표본평균의 표집분포 $ X_1, X_2, \cdots, X_n $ 이 평균이 $ \mu $ 이고, 분산이 $ \sigma^2 $ 인 정규분포에서의 크기가 $ n $ 인 확률분포라 할 때 표본평균인 $ \bar{X} $ 는 평균이 $ \mu_{\bar{X}} = \mu $ 이고, 분산이 $ \sigma_{\bar{X}}^2 = \dfrac{\sigma^2}{n} $ 인 정규분포를 따른다. 즉 다음과 같다.$$ \bar{X} \sim N \left(\mu, \frac{\sigma^2}{n} \right) $$더보기$ X_1, X_2, \cdots, X_n $ 은 평균이 $ \mu $ 이고 분산이 $ \sigma^2 $ 인 정규분포에서의 크기가 $ n $ 인 확률표본이기에 $ X_i $ 는 독립이고, $ E(..
[Mathematical Statistics] 표집분포(sampling distribution)
·
Statistics/Mathematical Statistics
표본평균 (Sample Mean) i.i.d. 확률변수 $ X_1, X_2, \cdots, X_n $ 에 대한 표본평균 $ \bar{X} $ 는 다음과 같다.$$ \bar{X} = \dfrac{1}{n} \sum_{i=1}^n X_i $$표본평균은 모평균을 추정하기 위해 사용된다. 표본분산 (Sample Variance) i.i.d. 확률변수 $ X_1, X_2, \cdots, X_n $ 에 대한 표본분산 $ S^2 $ 는 다음과 같다.$$ S^2 = \dfrac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 $$표본분산은 모분산을 추정하기 위해 사용된다.$ frac{1}{n} $ 이 아니라 $ \frac{1}{n-1} $ 인 이유는 불편추정량 때문이다. 통계량 (Statistic..
[Mathematical Statistics] 마할라노비스 거리(Mahalanobis distance)
·
Statistics/Mathematical Statistics
마할라노비스 거리 (Mahalanobis Distance) 일반적으로 거리를 나타낼 때는 유클리드 거리(Euclidean distance)를 많이 사용한다. 그런데 유클리드 거리는 확률과 무관한 거리이기에 확률론적 거리로는 마할라노비스 거리를 많이 사용한다.마할라노비스 거리는 평균에서 얼마나 많은 표준편차만큼 떨어져 있는지를 나타낸다. 즉 나타날 확률이 작을 수록 거리가 멀다. 이때 변량들끼리의 상관관계를 고려하게 된다. 즉 변량의 분산과 변량들끼리의 공분산을 반영한다.벡터 $ \mathbf{x} $, $ \mathbf{y} $ 의 공분산 행렬이 $ \mathbf{\Sigma} $ 일 때 마할라노비스 거리는 다음과 같다.$$ d_M = \sqrt{(\mathbf{x} - \mathbf{y} )^T \ma..
[Mathematical Statistics] 다변량 정규분포(MVN, multivariate normal distribution)
·
Statistics/Mathematical Statistics
다변량 정규분포 다변량 정규분포는 확률변수의 벡터인 확률벡터의 모든 선형결합이 정규분포를 따르면 확률벡터는 다변량 정규분포를 갖는다고 한다. 예를 들어 확률벡터가 $ \mathbf{X} = (X_1, X_2, \cdots, X_D) $ 이고, $ k_1, k_2, \cdots, k_D $ 가 임의의 상수일 때 $ Y $ 가 다음과 같으면서 정규분포를 가지면 $ \mathbf{X} $ 는 다변량 정규분포를 가진다.$$ Y = k_1 X_1 + k_2 X_2 + \cdots + k_D X_D $$만약 $ Y $ 가 상수라면 분산이 $ 0 $ 인 퇴화(degenerate) 정규분포이긴 하지만, 그럼에도 정규분포를 갖는 것으로 간주하며, $ D = 2 $ 인 경우는 이변량 정규분포라 한다.이러한 다변량 정규분포..
[Mathematical Statistics] 이변량 정규분포(bivariate normal distribution)
·
Statistics/Mathematical Statistics
이변량 정규분포 이변량 정규분포는 두 확률변수의 분포가 정규분포를 따르는 확률분포로 다변량 정규분포의 특수한 형태이다.확률변수 $ X_1, X_2 $ 가 각각 $ N(\mu_1, \sigma_1^2) $, $N(\mu_2, \sigma_2^2)$ 를 따르며 이변량 정규분포를 따른다면 이변량 밀도함수는 다음과 같다.$$ f(x_1, x_2) = \dfrac{e^{-q(x_1, x_2)/2}}{2\pi \sigma_1 \sigma_2 \sqrt{1-\rho ^2 }} \qquad (-\infty $$ q(x_1, x_2) = \dfrac{1}{1-\rho^2} \left[ \dfrac{(x_1 - \mu_1)^2}{\sigma_1^2} - 2 \rho \dfrac{(x_1 - \mu_1)(x_2 - \mu_..
[Mathematical Statistics] 조건부 기댓값 및 분산과 최소제곱 회귀직선과의 관계
·
Statistics/Mathematical Statistics
조건부 기댓값 및 분산과 최소제곱 회귀직선과의 관계  $ X $ 와 $ Y $ 가 결합확률함수 $ p (x, y) $ 를 가지는 공동이산 확률변수라 가정하면 조건부 기댓값과 조건부 분산은 다음과 같을 것이다.$ \mu_{Y \mid x} = E(Y \mid x) = \sum_{y} y p(y \mid x) $$ \sigma^2 _{Y \mid x} = E \left( [ Y - E(Y \mid x)^2 \mid x \right) = \sum_y [y-E(Y \mid x)]^2 p(y \mid x)  = E(Y^2 \mid x) - E(Y \mid x)^2 $이제 $ E ( Y \mid x) $ 를 $ x $ 단독의 함수, $ E(X \mid y) $ 를 $ y $ 단독의 함수라 할 수 있다. 이때 $ E..
[Mathematical Statistics] 조건부 기댓값(conditional expectation) 및 조건부 분산(conditional variance)
·
Statistics/Mathematical Statistics
조건부 기댓값 어떤 확률변수 $ X_1 $ 과 $ X_2 $ 에 대해 $ X_2 = x_2 $ 라 주어진 경우에 $ X_1 $ 의 함수인 $ g(X_1) $ 의 조건부 기댓값은 만약 $ X_1 $ 과 $ X_2 $ 가 공동연속이면 다음과 같이 정의한다.$$ E\left[ g(X_1) \mid X_2 = x_2 \right] = \int_{-\infty}^\infty g(x_1) f(x_1 \mid x_2) dx_1 $$만약 공동이산이면 다음과 같이 정의한다.$$ E\left[ g(X_1) \mid X_2 = x_2 \right] = \sum_{\forall x_1} g(x_1) p(x_1 \mid x_2) $$ 전체 기댓값의 법칙 (Law of Total Expectation) 반복 기댓값의 법칙(law..
[Mathematical Statistics] 다항분포(multinomial distribution)
·
Statistics/Mathematical Statistics
다항분포 (Multinomial Distribution) 다항실험 (Multinomial Experiment)이항실험의 일반화로 다음과 같은 성질을 가진다. 실험은 $ n $ 번의 동일한 시행으로 이뤄지며, 각 시행의 기본결과는 $k $ 개의 부류 중 하나에 속한다.단일 시행의 기본결과가 $ i $ 번째 부류에 속할 확률을 $ p_i $ $(i = 1, 2, \cdots, k) $ 라 하면 $ \sum_{i=1}^k p_i = 1 $ 이고, 이 확률은 시행마다 동일하게 유지된다. 또한 시행들을 i.i.d.를 따른다.이때 관심있는 확률변수는 $ X_1, X_2, \cdots, X_k $ 로 $ X_i $ 는 기본결과가 $ i $ 번째 부류에 속하는 시행의 횟수이며 $ \sum_{i=1}^k X_i = n ..
[Mathematical Statistics] 확률변수의 선형함수에 대한 기댓값과 분산
·
Statistics/Mathematical Statistics
확률변수의 선형함수에 대한 기댓값과 분산 표본의 측정값들의 선형함수인 모수추정량을 위해 확률변수의 선형함수에 대한 기댓값과 분산을 알아야 한다.예를 들어 $ Y_1, Y_2, \cdots, Y_n $ 과 $ X_1, X_2, \cdots, X_m $ 이 $ E\left( Y_i \right) = \mu_{y_i} $ 이고, $ E\left( X_i \right) = \mu_{x_i} $ 인 확률변수라 하고, $ a_1, a_2, \cdots, a_n $ 과 $ b_1, b_2, \cdots, b_m $ 이 상수이며, $ U_1 $ 과 $ U_2 $ 가 다음과 같다고 가정하자.$ U_1 = \sum_{i=1}^n a_i Y_i $,     $ U_2 = \sum_{i=1}^m b_i X_i $그렇다면 다음..
[Mathematical Statistics] 확률변수 함수의 기댓값
·
Statistics/Mathematical Statistics
확률변수 함수의 기댓값 일변량 확률변수의 함수의 기댓값을 구할 수 있듯이 다변량 확률변수의 함수 역시 기댓값을 구할 수 있다. 이산확률변수의 함수$ g(X_1, X_2, \cdots, X_n) $ 이 확률변수 $ X_1, X_2, \cdots, X_n $ 의 함수이며 $ X_1, X_2, \cdots, X_n $ 이 이산확률변수이고 $ p(x_1, x_2, \cdots, x_n) $ 의 결합확률함수를 가진다면 기댓값은 다음과 같다.$$ E\left[ g(X_1, X_2, \cdots, X_n) \right] = \sum_{\forall x_n} \cdots \sum_{\forall x_2} \sum_{\forall x_1} g(x_1, x_2, \cdots, x_n) p(x_1, x_2, \cdots, ..
애스터로이드
'Statistics/Mathematical Statistics' 카테고리의 글 목록 (3 Page)