왜도와 첨도
왜도와 첨도는 확률분포의 기울어짐과 꼬리 두께에 관한 측도이다. 여기(링크)를 참고하여 대강의 개념을 알면 좋다.
- 왜도 (Skewness)
$$ \gamma_1 = \dfrac{E\left[ (X-\mu)^3\right]}{\sigma^3} $$
$ \gamma_1 $ 혹은 $ S_k $ 로 표기한다.
- 첨도 (Kurtosis)
$$ \gamma_2 = \dfrac{E\left[(X-\mu)^4\right]}{\sigma^4} $$
$ \gamma_2 $ 혹은 $ K $ 로 표기한다. 표준정규분포의 첨도가 3 이기 때문에 위 첨도 값에서 3 을 빼서 사용하기도 하며, 이때의 첨도를 초과 첨도라 한다.
적률 (Moment)
원래 '적률'은 수학에서의 용어인데, 통계학에서 빌려와 사용한다. 따라서 '적률'이라는 말이 나왔을 때 이것이 수학의 적률인지, 물리학의 적률(물리학에서의 적률은 또 다르다)인지, 통계학의 적률인지 확인해야 한다.
통계학에서 적률은 확률 분포의 특성을 나타내는 수치로 $ n $ 차 적률은 다음과 같이 정의된다.
$$ \mu_n = \int_{-\infty}^{\infty} (x-c)^n f(x) dx $$
$$ \mu_n = \sum_{x} (x-c)^n p(x) $$
위 $ \int $ 가 사용된 것은 연속확률변수에 대한 적률이고, $ \sum $ 이 사용된 것은 이산확률변수에 대한 적률이다. 일반적으로 적률이라 말하면 원적률을 말하며, 원적률은 $ c = 0 $ 이고, $ \mu_n^\prime $ 로 표기한다.
원적률을 다음과 같이 확인해볼 수 있다.
- 1차 적률
$$ \mu_1^\prime = \int_{-\infty}^{\infty} x f(x) dx = E(X) $$
1차 적률은 $ x $ 와 $ f(x) $ 를 곱한 값들의 모든 합, 혹은 적분값이기 때문에 평균이다.
- 2차 적률
$$ \mu_2^\prime = \int_{-\infty}^{\infty} x^2 f(x) dx = E(X^2) $$
2차 적률은 $ x^2 $ 과 $ f(x) $ 를 곱한 값들의 모든 합, 혹은 적분값이기 때문에 $ x^2 $ 의 평균이다.
- $ n $ 차 적률
$$ \mu_2^\prime = \int_{-\infty}^{\infty} x^n f(x) dx = E(X^n) $$
$ n $ 차 적률은 $ x^n $ 과 $ f(x) $ 를 곱한 값들의 모든 합, 혹은 적분값이기 때문에 $ x^n $ 의 평균이다.
중심적률 (Central Moment)
적률에서 $ c $ 값이 평균 $ E(X) $ 인 적률을 말한다. 주로 사용해서인지 $ \mu_n $ 으로 표기한다.
- 1차 중심적률
$$ \mu_1 = \int_{-\infty}^{\infty} (x - E(X)) f(x) dx = E(X-E(X)) = 0 $$
1차 중심적률은 앞서 1차 적률에서 평균을 뺀 것과 같기 때문에, 즉 평균에서 평균을 뺀 값이기 때문에 0 이다.
- 2차 중심적률
$$ \mu_2 = \int_{-\infty}^{\infty} (x-E(X))^2 f(x) dx = E(X^2-E(X^2)) = E(X^2) - (E(X))^2 = Var(X) $$
2차 중심적률은 $ x $ 에서 평균을 뺀 값을 제곱한 값, 즉 분산이다.
- $ n $ 차 중심적률
$$ \mu_n = \int_{-\infty}^{\infty} (x-E(X))^n f(x) dx = E(X^n-E(X)) = E(X^n) - E(X) $$
$ n $ 차 중심적률은 $ x^n $ 의 평균에서 $ x $ 의 평균을 뺀 값이다.
표준화적률 (Standardized Moment)
표준화적률은 $ n $ 차 중심적률을 표준편차의 $ n $ 제곱으로 나눈 값으로 $ \tilde{\mu}_n $ 으로 나타내며 다음과 같다.
$$ \tilde{\mu}_n = \dfrac{\mu_n}{\sigma^n} $$
- 1차 표준화적률
$$ \tilde{\mu}_1 = \dfrac{\mu_1}{\sigma} = 0 $$
1차 중심적률이 0 이었으므로 1차 표준화적률은 0 이다.
- 2차 표준화적률
$$ \tilde{\mu}_2 = \dfrac{\mu_2}{\sigma^2} = \dfrac{Var(X)}{\sigma^2} = 1 $$
2차 중심적률이 $ Var(X) $ 였는데, $ \sigma^2 = Var(X) $ 이므로 2차 표준화적률은 1 이다.
- 3차 표준화적률
$$ \tilde{\mu}_3 = \dfrac{\mu_3}{\sigma^3} = \gamma_1 $$
$ \mu_3 = E\left[(X-E(X))^3\right] $ 이기 때문에 3차 표준화적률은 왜도이다.
- 4차 표준화적률
$$ \tilde{\mu}_4 = \dfrac{\mu_4}{\sigma^4} = \gamma_2 $$
$ \mu_4 = E \left[ (X - E(X))^4 \right] $ 이기 때문에 4차 표준화적률은 첨도이다.
적률생성함수 (Moment Generating Function, MGF)
적률생성함수는 이름대로 적률을 구할 수 있는 함수이다. 적률을 일일이 적분(혹은 합)으로 구할 수 있지만, 적률생성함수를 통해서도 구할 수 있다.
$ | t | \leq \alpha $ 에 대해 $ M_X(t) $ 가 유한인 양의 상수 $ \alpha $ 가 존재하면 $ X $ 의 적률생성함수가 존재한다고 말하며 다음과 같이 정의한다.
$$ M_X(t) = E\left(e^{tX}\right) $$
생각해보면 앞서 적률은 확률분포의 특징을 설명했다. 예를 들어 평균, 분산, 왜도, 첨도 등을 적률, 혹은 변형된 적률로 확인할 수 있었다. 그렇기 때문에 모든 적률을 만들 수 있는 적률생성함수가 같다면, 평균, 분산, 왜도, 첨도, 나아가 $ n $ 차 적류이 같다는 의미이다. 즉 어떤 두 확률변수의 적률생성함수가 같다면 두 확률변수의 확률분포는 같다.
$ E(e^{tX}) $ 가 $ X $ 의 적률생성함수인 이유는 다음과 같다.
$ e^{tX} $ 에 대한 급수전개로부터
$ e^{tx} = 1 + tx + \dfrac{(tx)^2}{2!} + \dfrac{(tx)^3}{3!} + \cdots $
이므로 $ k = 1, 2, 3, \cdots $ 에 대해 $ \mu_k^\prime $ 이 유한이라 가정하면
$ E(e^{tX}) = \sum_x e^{tx} p(x) $
$ = \sum_x \left[ 1 + tx + \dfrac{(tx)^2}{2!} + \dfrac{(tx)^3}{3!} + \cdots \right] p(x) $
$ = \sum_x p(x) + t \sum_x p(x) + \dfrac{t^2}{2!} \sum_x x^2 p(x) + \cdots $
$ = 1 + t \mu_1^\prime + \dfrac{t^2}{2!} \mu_2^\prime + \cdots $
이다.
따라서 $ E(e^{tX}) $ 는 적률 $ \mu_n^\prime $ 에 관한 함수이고, $ \mu_k^\prime $ 은 $ M_X(t) $ 의 급수전개에서 $ \dfrac{t^k}{k!} $ 의 계수이다.
따라서 구한 $ E(e^{tX}) $ 를 $ n $ 번 미분하고 $ t $ 에 $ 0 $ 을 대입하면 $ n $ 차 원적률을 얻을 수 있다.
'Statistics > Mathematical Statistics' 카테고리의 다른 글
[Mathematical Statistics] 베르누이분포(Bernoulli distribution)와 이항분포(binomial distribution) (0) | 2024.10.09 |
---|---|
[Mathematical Statistics] 확률생성함수(PGF) (0) | 2024.10.09 |
[Mathematical Statistics] 확률변수의 기댓값과 분산 (0) | 2024.10.02 |
[Mathematical Statistics] 확률변수와 확률분포 (0) | 2024.09.25 |
[Mathematical Statistics] 전확률의 법칙과 베이즈 정리 (0) | 2024.09.09 |