결합분포 (Joint Distribution)
확률실험의 각 결과에 한 쌍의 실수를 부여하는 확률변수가 있을 수 있다. 다르게 보면 확률변수 여러개를 결합하여 생각할 수 있다.
예를 들어서 두 동전을 던졌을 때 각각 동전의 앞면의 수를 결합하여 확인할 수도 있다. 표로 확인하면 다음과 같을 것이다.
$ X $ | ||||
0 | 1 | 합 | ||
$ Y $ | 0 | 1/4 | 1/4 | 1/2 |
1 | 1/4 | 1/4 | 1/2 | |
합 | 1/2 | 1/2 | 1 |
그래프를 통해 결합분포를 본다면 아래와 같이도 나타낼 수 있다. 그래프는 위 표와 다른 분포이다.
만약 결합되는 두 확률변수의 결합분포함수가 연속이라면 두 확률변수들이 공동연속(jointly continuous)이라 하고, 이 결합분포의 확률밀도함수가 존재하면 결합되는 두 확률변수를 공동연속확률변수(jointly continuous random variable)라 한다.
결합되는 두 확률변수가 이산확률변수라면 공동이산확률변수(jointly discrete random variable)라 한다.
결합분포의 성질
$ X_1 $ 과 $ X_2 $ 가 이산확률변수이고, $ Y_1 $ 과 $ Y_2 $ 가 연속확률변수일 때 다음이 성립한다.
- 결합확률질량함수 (Joint PMF)
$$ p_{X_1, X_2}(x_1, x_2) = P(X_1 = x_1, X_2 = x_2) $$
- 결합확률밀도함수 (Joint PDF)
$$ f_{Y_1, Y_2}(y_1, y_2) = \dfrac{\partial ^2}{\partial y_1 \partial y_2} F_{Y_1, Y_2} (y_1, y_2) $$
이때 $ f_{Y_1, Y_2}(y_1, y_2) $ 는 평면 상에서 확률밀도표면(probability density surface)을 나타내고 확률밀도표면 아래의 부피가 확률에 해당한다.
$ P(a_1 \leq Y_1 \leq a_2, b_1 \leq Y_2 \leq b_2) $
$ = \int_{b_1}^{b_2} \int_{a_1}^{a_2} f_{Y_1, Y_2}(y_1, y_2) dy_1 dy_2 $
- 결합분포함수
$$ F_{X_1, X_2}(x_1, x_2) = \sum_{t_1 \leq x_1} \sum_{t_2 \leq x_2} p_{X_1, X_2}(t_1, t_2) $$
$$ F_{Y_1, Y_2}(y_1, y_2) = \int_{-\infty}^{y_1} \int_{-\infty}^{y_2} f_{Y_1, Y_2}(t_1, t_2) dt_2 dt_1 $$
- 기본 성질
$$ F(-\infty, -\infty) = F(-\infty, y_2) = F(y_1, -\infty) = 0 $$
$$ F(\infty, \infty) = 1 $$
$$ F(y_1^*, y_2^*) - F(y_1^*, y_2) - F(y_1, y_2^*) + F(y_1, y_2) \geq 0 \qquad (y_1^* \geq y_1, \quad y_2^* \geq y_2) $$
주변분포 (Marginal Distribution)
$ X_1 $ 과 $ X_2 $ 가 이산확률변수이면서 결합확률질량함수 $ p_{X_1, X_2}(x_1, x_2) $ 를 가지고, $ Y_1 $ 과 $ Y_2 $ 가 연속확률변수이면서 결합확률밀도함수 $ f_{Y_1, Y_2}(y_1, y_2) $ 를 가진다고 가정하자.
그렇다면 $ X_1 $ 과 $ X_2 $ 의 주변확률질량함수는 다음과 같다.
$$ p_{X_1}(x_1) = \sum_{\forall x_2} p_{X_1, X_2}(x_1, x_2), \qquad p_{X_2}(x_2) = \sum_{\forall x_1} p_{X_1, X_2}(x_1, x_2) $$
$ Y_1 $ 과 $ Y_2 $ 의 주변확률밀도함수는 다음과 같다.
$$ f_{Y_1}(y_1) = \int_{-\infty}^\infty f_{Y_1, Y_2}(y_1, y_2) dy_2 , \qquad f_{Y_2}(y_2) = \int_{-\infty}^\infty f_{Y_1, Y_2}(y_1, y_2) dy_1 $$
즉 $ p_{X_1}(x_1) $ 을 예시로 보면 $ p_{X_1}(x_1) $ 을 구하기 위해 $ x_2 $ 에 모든 값에 대해서 $ p_{X_1, X_2}(x_1, x_2) $ 를 합친 것으로 $ x_1 $ 축의 확률들을 누적한 것이다.
표를 통해서 보면 $ X $ 의 주변확률분포가 붉은 색 부분인 것이다.
$ X $ | ||||
0 | 1 | 합 | ||
$ Y $ | 0 | 1/4 | 1/4 | 1/2 |
1 | 1/4 | 1/4 | 1/2 | |
합 | 1/2 | 1/2 | 1 |
그래프로도 볼 수 있다.
확률질량함수(연속확률변수라면 확률밀도함수)를 한쪽으로 몰아넣으면 주변분포가 된다.
조건부분포 (Conditional Distribution)
조건부 사건이 있으면 조건부확률도 있으며, 어떤 사건이 일어났을 때 또 다른 어떤 사건이 일어났을 확률을 말한다.
$ X_1 $ 과 $ X_2 $ 가 이산확률변수이면서 결합확률질량함수 $ p_{X_1, X_2}(x_1, x_2) $ 를 가지고, $ Y_1 $ 과 $ Y_2 $ 가 연속확률변수이면서 결합확률밀도함수 $ f_{Y_1, Y_2}(y_1, y_2) $ 를 가진다고 가정하자.
그렇다면 $ x_2 $ 일 때 $ x_1 $ 일 조건부확률질량함수는 다음과 같다.
$$ p_{X_1, X_2}(x_1 \mid x_2) = P(X_1 = x_1 \mid X_2 = x_2) = \dfrac{P(X_1 = x_1 , X_2 = x_2)}{P(X_2 = x_2)} = \dfrac{p_{X_1, X_2}(x_1, x_2)}{p_{X_2}(x_2)} $$
$ y_2 $ 일 때 $ y_1 $ 일 조건부분포함수는 다음과 같다.
$$ F_{Y_1, Y_2}(y_1 \mid y_2) = P(Y_1 \leq y_1 \mid Y_2 = y_2) $$
조건부확률밀도함수는 아래와 같다.
$$ f_{Y_1, Y_2}(y_1 \mid y_2) = \dfrac{f_{Y_1, Y_2}(y_1, y_2)}{f_{Y_2}(y_2)} \qquad f_{Y_2}(y_2) > 0 $$
조건부분포 역시 그래프를 통해 보면 아래이 나타낼 수 있다.
'Statistics > Mathematical Statistics' 카테고리의 다른 글
[Mathematical Statistics] 확률변수의 독립(independence)과 공분산(covariance) 및 상관계수(correlation coefficient) (0) | 2024.10.16 |
---|---|
[Mathematical Statistics] 불연속함수와 혼합확률분포의 기댓값 (0) | 2024.10.14 |
[Mathematical Statistics] 체비쇼프 부등식(Chebyshev inequality) (0) | 2024.10.14 |
[Mathematical Statistics] 베타분포(beta distribution) (0) | 2024.10.14 |
[Mathematical Statistics] 지수분포(exponential distribution) (0) | 2024.10.14 |