확률변수의 독립 (Independence)
두 확률변수가 상관관계가 없다면, 즉 어떤 확률변수의 값이 다른 확률변수에 영향을 주지 않는다면 두 확률변수를 독립이라 하고 다음과 같이 나타낸다. $ F $ 는 누적분포함수이다.
$$ X \bot Y \Longleftrightarrow F_{X, Y}(x, y) = F_X(x) F_Y(y) $$
두 이산확률변수 $ X $ 와 $ Y $ 가 다음을 만족하면 두 확률변수가 독립이라 한다.
$$ p_{X, Y}(x, y) = p_X(x) p_Y(y) \qquad \forall x, y $$
$$ p_{X, Y}(x \mid y) = p_X(x) \qquad \forall x, y $$
만약 두 확률변수가 연속확률변수라면 다음을 만족할 때 두 확률변수가 독립이라 한다.
$$ f_{X, Y}(x, y) = f_X(x)f_Y(y) \qquad \forall x, y $$
$$ f_{X, Y}(x \mid y) = f_X(x) \qquad \forall x, y $$
두 확률변수가 독립이라면 다음과 같이 나타낸다.
$$ X \bot Y $$
또한 두 확률변수가 독립이라면 두 확률변수의 함수 역시 독립이다.
추가로 확률변수 $ X $ 와 $ Y $ 가 $ E( Y \mid X) = E(Y) $ 와 $ E(X \mid Y) = E(X) $ 를 만족하면 평균 독립(mean independent)이라 한다. 독립보다 약한 개념이다. 즉 독립이 만족하면 평균 독립을 만족하지만, 평균 독립을 만족한다고 해서 독립이 만족하지는 않는다.
공분산 (Covariance)
두 확률변수가 어떤 선형관계를 가지고 있느냐를 확인하는 측도 중 하나로 확률변수 $ X $ 와 $ Y $ 의 공분산은 $ \operatorname{Cov}(X, Y) $ 로 나타낸다.
확률변수 $ X $ 와 $ Y $ 의 모공분산은 다음과 같다.
$$ \operatorname{Cov}(X, Y) = \sigma_{X, Y} = E\left[ (X -\mu_X) (Y - \mu_Y) \right] = \dfrac{1}{N} \sum_{i=1}^N (X_i - \mu_X) (Y_i - \mu_Y) $$
만약 표본공분산을 측정하려면 $ \bar{X} $ 와 $ \bar{Y} $ 를 사용하면 되고, 따라서 다음과 같다.
$$ \operatorname{Cov}(X, Y) = S_{X, Y} = E \left[ (X - \bar{X}) (Y - \bar{Y}) \right] = \dfrac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X}) (Y_i - \bar{Y}) $$
추가로 기댓값의 선형성을 이용하여 다음과 같이 구할수도 있다.
$$ E \left[ (X - \mu_X) (Y -\mu_Y) \right] = E(XY) - E(X) E(Y) $$
만약 두 확률변수가 종속되어 있다면, 위 독립의 정의를 통해 알 수 있듯이, 공분산은 $ 0 $ 보다 큰 값이 나오고, 독립이라면 $ 0 $ 이 나온다.
$$ X \bot Y \Longrightarrow \operatorname{Cov}(X, Y) = 0 $$
선형관계를 측정한다는 것은 반대로 선형관계가 아니라면 측정하지 못한다는 뜻이기도 하다. 예를 들어 $ X $ 와 $ Y $ 의 관계를 산점도로 나타냈을 때 원형을 그리고 있을 수 있다. 산점도를 통해서 원형을 그리는 관계를 나타낸다고 추정할 수 있지만, 선형관계는 아니기에 측정하지 못한다.
단 독립이 아닐 때 선형관계의 절대적 측도로 사용하기는 어렵다. 자료의 분산 자체가 커지면 공분산도 커지기 때문이다.
참고로 계산해보면 당연하지만 $ \operatorname{Cov}(X, X) = V(X) $ 이다.
상관계수 (Correlation Coefficient)
공분산과 마찬가지로 두 확률변수의 선형관계를 측정하는 측도이다. 절대적 측도로 사용하지 못하는 공분산과 다르게 어떤 선형관계를 나타내는가를 나타낼 수 있고, 다른 확률변수들의 선형관계와 비교할 수 있기 때문에 절대적 측도로 사용할 수 있다.
상관계수는 피어슨(Pearson) 상관계수라고도 하며, 다음과 같이 나타내고 정의한다.
$$ \rho_{X, Y} = \dfrac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y} $$
상관계수 값은 $ - 1 \leq \rho \leq 1 $ 이며, $ 1 $ 에 가까우면 양의 상관관계, $ -1 $ 에 가까우면 음의 상관관계, $ 0 $ 이면 선형적 무상관이다. 주의할 점은 상관계수가 $ 0 $ 이라 해서 독립은 아니라는 것이다. 공분산과 마찬가지로 선형관계만을 측정하기에 선형관계가 아닌 관계를 가질 때 상관계수가 $ 0 $ 일 수 있다.
'Statistics > Mathematical Statistics' 카테고리의 다른 글
[Mathematical Statistics] 확률변수의 선형함수에 대한 기댓값과 분산 (0) | 2025.01.15 |
---|---|
[Mathematical Statistics] 확률변수 함수의 기댓값 (0) | 2025.01.15 |
[Mathematical Statistics] 결합분포(joint distribution)와 주변분포(marginal distribution) 그리고 조건부분포(conditional distribution) (0) | 2024.10.15 |
[Mathematical Statistics] 불연속함수와 혼합확률분포의 기댓값 (0) | 2024.10.14 |
[Mathematical Statistics] 체비쇼프 부등식(Chebyshev inequality) (0) | 2024.10.14 |