수리통계학

[Mathematical Statistics] 표집분포(sampling distribution)
·
Statistics/Mathematical Statistics
표본평균 (Sample Mean) i.i.d. 확률변수 X1,X2,,XnX1,X2,,Xn 에 대한 표본평균 ˉX¯X 는 다음과 같다.ˉX=1nni=1Xi¯X=1nni=1Xi표본평균은 모평균을 추정하기 위해 사용된다. 표본분산 (Sample Variance) i.i.d. 확률변수 X1,X2,,XnX1,X2,,Xn 에 대한 표본분산 S2S2 는 다음과 같다.S2=1n1ni=1(XiˉX)2S2=1n1ni=1(Xi¯X)2표본분산은 모분산을 추정하기 위해 사용된다.frac1nfrac1n 이 아니라 1n11n1 인 이유는 불편추정량 때문이다. 통계량 (Statistic..
[Mathematical Statistics] 마할라노비스 거리(Mahalanobis distance)
·
Statistics/Mathematical Statistics
마할라노비스 거리 (Mahalanobis Distance) 일반적으로 거리를 나타낼 때는 유클리드 거리(Euclidean distance)를 많이 사용한다. 그런데 유클리드 거리는 확률 정보를 반영하지 않기에 확률론적 거리로는 마할라노비스 거리를 많이 사용한다.마할라노비스 거리는 평균에서 얼마나 많은 표준편차만큼 떨어져 있는지를 나타낸다. 즉 나타날 확률이 작을수록 거리가 멀다. 이때 변량들끼리의 상관관계를 고려하게 된다. 즉 변량의 분산과 변량들끼리의 공분산을 반영한다.벡터 xx, yy 의 공분산 행렬이 ΣΣ 일 때 마할라노비스 거리는 다음과 같다.$$ d_M = \sqrt{(\mathbf{x} - \mathbf{y} ) \mat..
[Mathematical Statistics] 다변량 정규분포(MVN, multivariate normal distribution)
·
Statistics/Mathematical Statistics
다변량 정규분포 다변량 정규분포는 확률변수의 벡터인 확률벡터의 모든 선형결합이 정규분포를 따르면 확률벡터는 다변량 정규분포를 갖는다고 한다. 예를 들어 확률벡터가 X=(X1,X2,,XD)X=(X1,X2,,XD) 이고, k1,k2,,kDk1,k2,,kD 가 임의의 상수일 때 YY 가 다음과 같으면서 정규분포를 가지면 XX 는 다변량 정규분포를 가진다.Y=k1X1+k2X2++kDXDY=k1X1+k2X2++kDXD만약 YY 가 상수라면 분산이 00 인 퇴화(degenerate) 정규분포이긴 하지만, 그럼에도 정규분포를 갖는 것으로 간주하며, D=2D=2 인 경우는 이변량 정규분포라 한다.이러한 다변량 정규분포..
[Mathematical Statistics] 이변량 정규분포(bivariate normal distribution)
·
Statistics/Mathematical Statistics
이변량 정규분포 이변량 정규분포는 두 확률변수의 분포가 정규분포를 따르는 확률분포로 다변량 정규분포의 특수한 형태이다.확률변수 X1,X2X1,X2 가 각각 N(μ1,σ21)N(μ1,σ21), N(μ2,σ22)N(μ2,σ22) 를 따르며 이변량 정규분포를 따른다면 이변량 밀도함수는 다음과 같다.f(x1,x2)=eq(x1,x2)/22πσ1σ21ρ2(f(x1,x2)=eq(x1,x2)/22πσ1σ21ρ2( q(x_1, x_2) = \dfrac{1}{1-\rho^2} \left[ \dfrac{(x_1 - \mu_1)^2}{\sigma_1^2} - 2 \rho \dfrac{(x_1 - \mu_1)(x_2 - \mu_..
[Mathematical Statistics] 조건부 기댓값 및 분산과 최소제곱 회귀직선과의 관계
·
Statistics/Mathematical Statistics
조건부 기댓값 및 분산과 최소제곱 회귀직선과의 관계  XXYY 가 결합확률함수 p(x,y)p(x,y) 를 가지는 공동이산 확률변수라 가정하면 조건부 기댓값과 조건부 분산은 다음과 같을 것이다.μYx=E(Yx)=yyp(yx)μYx=E(Yx)=yyp(yx)σ2Yx=E([YE(Yx)2x)=y[yE(Yx)]2p(yx)=E(Y2x)E(Yx)2σ2Yx=E([YE(Yx)2x)=y[yE(Yx)]2p(yx)=E(Y2x)E(Yx)2이제 E(Yx)E(Yx)xx 단독의 함수, E(Xy)E(Xy)yy 단독의 함수라 할 수 있다. 이때 $ E..
[Mathematical Statistics] 조건부 기댓값(conditional expectation) 및 조건부 분산(conditional variance)
·
Statistics/Mathematical Statistics
조건부 기댓값 어떤 확률변수 X1X1X2X2 에 대해 X2=x2X2=x2 라 주어진 경우에 X1X1 의 함수인 g(X1)g(X1) 의 조건부 기댓값은 만약 X1X1X2X2 가 공동연속이면 다음과 같이 정의한다.E[g(X1)X2=x2]=g(x1)f(x1x2)dx1E[g(X1)X2=x2]=g(x1)f(x1x2)dx1만약 공동이산이면 다음과 같이 정의한다.E[g(X1)X2=x2]=x1g(x1)p(x1x2)E[g(X1)X2=x2]=x1g(x1)p(x1x2) 전체 기댓값의 법칙 (Law of Total Expectation) 반복 기댓값의 법칙(law..
[Mathematical Statistics] 다항분포(multinomial distribution)
·
Statistics/Mathematical Statistics
다항분포 (Multinomial Distribution) 다항실험 (Multinomial Experiment)이항실험의 일반화로 다음과 같은 성질을 가진다. 실험은 nn 번의 동일한 시행으로 이뤄지며, 각 시행의 기본결과는 kk 개의 부류 중 하나에 속한다.단일 시행의 기본결과가 ii 번째 부류에 속할 확률을 pipi (i=1,2,,k)(i=1,2,,k) 라 하면 ki=1pi=1ki=1pi=1 이고, 이 확률은 시행마다 동일하게 유지된다. 또한 시행들을 i.i.d.를 따른다.이때 관심있는 확률변수는 X1,X2,,XkX1,X2,,XkXiXi 는 기본결과가 ii 번째 부류에 속하는 시행의 횟수이며 $ \sum_{i=1}^k X_i = n ..
[Mathematical Statistics] 확률변수의 선형함수에 대한 기댓값과 분산
·
Statistics/Mathematical Statistics
확률변수의 선형함수에 대한 기댓값과 분산 표본의 측정값들의 선형함수인 모수추정량을 위해 확률변수의 선형함수에 대한 기댓값과 분산을 알아야 한다.예를 들어 Y1,Y2,,YnY1,Y2,,YnX1,X2,,XmX1,X2,,XmE(Yi)=μyiE(Yi)=μyi 이고, E(Xi)=μxiE(Xi)=μxi 인 확률변수라 하고, a1,a2,,ana1,a2,,anb1,b2,,bmb1,b2,,bm 이 상수이며, U1U1U2U2 가 다음과 같다고 가정하자.U1=ni=1aiYiU1=ni=1aiYi,     U2=mi=1biXiU2=mi=1biXi그렇다면 다음..
[Mathematical Statistics] 확률변수 함수의 기댓값
·
Statistics/Mathematical Statistics
확률변수 함수의 기댓값 일변량 확률변수의 함수의 기댓값을 구할 수 있듯이 다변량 확률변수의 함수 역시 기댓값을 구할 수 있다. 이산확률변수의 함수g(X1,X2,,Xn)g(X1,X2,,Xn) 이 확률변수 X1,X2,,XnX1,X2,,Xn 의 함수이며 X1,X2,,XnX1,X2,,Xn 이 이산확률변수이고 p(x1,x2,,xn)p(x1,x2,,xn) 의 결합확률함수를 가진다면 기댓값은 다음과 같다.$$ E\left[ g(X_1, X_2, \cdots, X_n) \right] = \sum_{\forall x_n} \cdots \sum_{\forall x_2} \sum_{\forall x_1} g(x_1, x_2, \cdots, x_n) p(x_1, x_2, \cdots, ..
[Mathematical Statistics] 확률변수의 독립(independence)과 공분산(covariance) 및 상관계수(correlation coefficient)
·
Statistics/Mathematical Statistics
확률변수의 독립 (Independence) 두 확률변수가 상관관계가 없다면, 즉 어떤 확률변수의 값이 다른 확률변수에 영향을 주지 않는다면 두 확률변수를 독립이라 하고 다음과 같이 나타낸다. FF 는 누적분포함수이다.XYFX,Y(x,y)=FX(x)FY(y)XYFX,Y(x,y)=FX(x)FY(y)두 이산확률변수 XXYY 가 다음을 만족하면 두 확률변수가 독립이라 한다.pX,Y(x,y)=pX(x)pY(y)x,ypX,Y(x,y)=pX(x)pY(y)x,ypX,Y(xy)=pX(x)x,ypX,Y(xy)=pX(x)x,y만약 두 확률변수가 연속확률변수라면 다음을 만족할 때 두 확률변수가 독립이라 한다.$$ f..
애스터로이드