Statistics

[Mathematical Statistics] 확률생성함수(PGF)
·
Statistics/Mathematical Statistics
확률생성함수 (Probability Generating Function, PGF) 적률생성함수와 유사한 함수로 확률변수가 이산확률변수이고 기댓값이 존재할 때 해당 확률변수의 확률생성함수가 존재한다고 말하며 다음과 같이 정의한다.GX(t)=E(tX)=i=0tip(i)GX(t)=E(tX)=i=0tip(i)그리고 아래와 같이 전개 가능하다.GX(t)=p0+p1t+p2t2+GX(t)=p0+p1t+p2t2+따라서 GX(t)GX(t) 를 알고 있고, 전개 가능하다면 txtx 의 계수로서 p(x)p(x) 를 구할 수 있다. 또한 GX(t)GX(t) 를 반복적으로 미분하면 확률변수 XX 에 대한 계승적률(factorial moment)을 구할 수 있다.확률생성함..
[Inferential Statistics] 독립항등분포 i.i.d.
·
Statistics/Inferential Statistics
독립항등분포 (Independent and Identically Distributed) 통계학에서 자주 i.i.d.로 표기되는 독립항등분포는 이항분포처럼 특정 분포를 나타내는 것이 아니라 하나의 가정이다. 이름에서 드러나듯이 각 확률변수들이 상호 독립적이고, 동일한 확률분포를 따른다는 가정을 말한다.상호 독립적(independent)이란 말은 각 확률변수가 다른 확률변수에 영향을 주지 않는다는 뜻이다. 예를 들어 게임에서 팀을 선택하는데, 처음 사람이 팀을 선택할 때 그 사람의 실력과 어느 팀을 선택하는지가 공개되어 있다면, 그 후 사람들의 선택에 첫 사람의 선택이 영향을 끼치기 때문에 독립적이지 않은 것이다.동일한 확률분포(indentically distributed)를 따른다는 말은 같은 모집단에서 ..
[Mathematical Statistics] 적률(moment)과 적률생성함수(MGF)
·
Statistics/Mathematical Statistics
왜도와 첨도 왜도와 첨도는 확률분포의 기울어짐과 꼬리 두께에 관한 측도이다. 여기(링크)를 참고하여 대강의 개념을 알면 좋다. 왜도 (Skewness)γ1=E[(Xμ)3]σ3γ1=E[(Xμ)3]σ3γ1γ1 혹은 SkSk 로 표기한다.첨도 (Kurtosis)γ2=E[(Xμ)4]σ4γ2=E[(Xμ)4]σ4γ2γ2 혹은 KK 로 표기한다. 표준정규분포의 첨도가 3 이기 때문에 위 첨도 값에서 3 을 빼서 사용하기도 하며, 이때의 첨도를 초과 첨도라 한다. 적률 (Moment) 원래 '적률'은 수학에서의 용어인데, 통계학에서 빌려와 사용한다. 따라서 '적률'..
[Mathematical Statistics] 확률변수의 기댓값과 분산
·
Statistics/Mathematical Statistics
기댓값과 분산 E(X)E(X) | 기댓값 (Expected Value)E(X)=ni=1xipiE(X)=ni=1xipiE(X)=xf(x)dxE(X)=xf(x)dx어떤 확률변수가 평균적으로 가지리라 기대되는 값이다. 즉 확률 과정에서 얻을 수 있는 모든 값에 확률로 가중 평균한 것이다. 이산확률변수는 을 사용하여 가중 평균하고, 연속확률변수는 을 사용하여 가중 평균한다. Var(X)Var(X) | 분산 (Variance)Var(X)=ni=1(xiE(X))2piVar(X)=ni=1(xiE(X))2piVar(X)=(xE(X))2f(x)dxVar(X)=(xE(X))2f(x)dx각 확률변수 값이..
[Descriptive Statistics] 왜도(skewness)와 첨도(kurtosis)
·
Statistics/Descriptive Statistics
자료의 분포 위치측도, 중심위치측도, 산포측도는 대략적으로 자료의 대표적 성격을 보여준다. 그런데 단순히 이러한 측도들을 통해서는 자료의 비대칭성을 보일수는 없다. 자료의 분포가 좌우대칭이라는 전제가 있다면 평균과 분포만 있어도 대략적인 그림을 그릴 수 있겠지만, 그렇지 않다면 분포가 어느 방향으로 얼마나 기울어져 있는지 확인하고, 표현해야 자료의 특성을 정확히 표현할 수 있다. 왜도 (Skewness) 자료의 분포가 기울어진 정도를 의미한다. 왜도가 00 일 때 좌우대칭이며, 음수라면 오른쪽으로 긴 꼬리를 가진, 즉 왼쪽으로 치우쳐진 모양을, 양수라면 왼쪽으로 꼬리를 가진, 즉 오른쪽으로 치우쳐진 모양을 가진다. 왜도가 00 일 때가 위 그림에서 주황색, 음수일 때가 초록색, 양수일 때가 파란색 그..
[Descriptive Statistics] 대푯값 및 위치와 산포의 측도
·
Statistics/Descriptive Statistics
위치측도 (Measures of Position) 자료를 정렬했을 때의 위치를 나타내는 측도들이다. 표본 데이터에 주로 사용되기에 정렬 가능하다는 가정이 되어 있다.위치 측도 자체로는 많은 것을 알아내기 어렵지만, 위치 측도를 활용하면 데이터의 분포, 개형 등을 확인할 수 있다. QiQi | 사분위수 (Quartiles)자료를 네 개의 같은 갯수를 가진 그룹으로 나누고, 각 기준값을 위치 측도로 삼는다. 오름차순으로 정렬된 데이터의 인덱스를 ii, 자료의 크기를 nn 이라 할 때, fi=i1n1fi=i1n1 의 값이 0.25, 0.5, 0.75 가 되는 값이 각 사분위수가 되고, 차례대로 Q1,Q2,Q3,Q1,Q2,Q3, 라 부른다. 특성상 Q2Q2 는 중앙값과..
[Mathematical Statistics] 확률변수와 확률분포
·
Statistics/Mathematical Statistics
확률변수 (Random Variable) X:SR확률변수란 표본공간을 정의역으로 하고, 실수 값을 치역으로 하는 함수로 확률 실험의 결과를 수치로 나타내는 데에 사용된다. 확률변수의 함수 역시 확률변수이다. 확률 실험의 정보를 어느정도 나타내느냐를 결정하고, 이 확률변수의 분포가 확률분포가 된다.일반적으로 확률변수 X 가 가질 수 있는 값의 범위가 셀 수 있는지 없는지에 따라 이산확률변수(discrete random variable)와 연속확률변수(continuous random variable)로 나누지만, 그 외 확률변수도 존재한다. 이산확률변수는 유한개의(finite) 값이나 자연수의 부분집합과 일대일 대응이 가능한(countable) 값으로 구성되어 ..
[Descriptive Statistics] 자료의 종류와 요약 및 시각화
·
Statistics/Descriptive Statistics
모집단과 표본 모집단 (Popuation)관심의 대상이 되는 모든 개체의 집합 혹은 확률모형을 말한다. 모집단을 구성하는 개체의 수가 유한할 경우 유한모집단, 무한할 경우 무한모집단이라 한다.표본 (Sample)모집단의 일부로서 실제 조사되는 대상의 집합이다. 확률변수 혹은 확률벡터들의 집합으로 이해할 수 있다.전수조사 (Census)모집단 전체를 조사하는 것이다. 단 조사비용, 시간 등의 문제와 조사과정에서 발생할 수 있는 비표본오차 증가 가능성, 조사 시간에 변화를 측정하지 못하는 문제 등이 있다.표본조사 (Sample Survey)모집단의 일부인 표본을 조사하는 것이다. 경제성, 신속성, 정확성, 필요성, 대표성, 적절성을 가지지만, 모집단을 대표하지 못하는 잘못된 표본을 조사할 경우 잘못된 통계를..
[Mathematical Statistics] 전확률의 법칙과 베이즈 정리
·
Statistics/Mathematical Statistics
분할 (Partition) 표본공간을 상호배타적인 사건들의 합사건으로 표현할 수 있다. 이때 상호배타적인 사건들의 모임을 표본공간의 분할이라 한다. 상호배타적 사건이라는 것은 AB= 을 만족하는 사건을 말한다. 이러한 분할은 아래와 같이 표현할 수 있다.i=1Bi=B1B2=S(ij,BiBj=) 전확률의 법칙 (Law of Total Probability) {B1,B2,,Bk}S 의 분할이고, 모든 j 에 대하여 P(Bj)>0 이면 다음이 ..
[Mathematical Statistics] 확률의 정의와 조건부확률 및 확률법칙
·
Statistics/Mathematical Statistics
기본 용어 확률 실험 (Random Experiment)실험결과가 확률적으로 나타나는 실험으로 관측값을 생성하는 과정을 말한다.S or Ω | 표본공간 (Sample Space)모든 가능한 표본점들로 이루어진 집합, 즉 확률실험에서 얻을 수 있는 모든 가능한 결과 집합이다.표본공간에 포함되는 결과들은 완전하고 상호배타적이어야 한다. 완전하다(exhaustive)는 것은 나열된 결과들은 모든 가능한 결과들을 포함한다는 뜻이고, 상호배타적(mutually exclusive)이라는 것은 두 가지 결과가 동시에 발생할 수 없다는 뜻이다.사건 (Event)표본공간의 부분집합으로 확률실험의 결과가 사건 집합의 원소이면 사건이 일어났다는 뜻이다.P | 확률함수 (Probabililty ..
애스터로이드