조건부 기댓값 및 분산과 최소제곱 회귀직선과의 관계
$ X $ 와 $ Y $ 가 결합확률함수 $ p (x, y) $ 를 가지는 공동이산 확률변수라 가정하면 조건부 기댓값과 조건부 분산은 다음과 같을 것이다.
$ \mu_{Y \mid x} = E(Y \mid x) = \sum_{y} y p(y \mid x) $
$ \sigma^2 _{Y \mid x} = E \left( [ Y - E(Y \mid x)^2 \mid x \right) = \sum_y [y-E(Y \mid x)]^2 p(y \mid x) = E(Y^2 \mid x) - E(Y \mid x)^2 $
이제 $ E ( Y \mid x) $ 를 $ x $ 단독의 함수, $ E(X \mid y) $ 를 $ y $ 단독의 함수라 할 수 있다. 이때 $ E( Y \mid x) $ 를 $ x $ 의 선형함수라 하면, 즉 $ E(Y \mid x ) = a + bx $ 라 하면 $ a $ 와 $ b $ 를 $ \mu_X $, $ \mu_Y $, $ \sigma^2_X $, $ \sigma^2_Y $, $ \rho_{X, Y} $ 로 나타낼 수 있다.
일단 상관계수가 존재할 수 있도록 $ \sigma_X , \sigma_Y > 0 $ 이라 가정한다. 그렇다면 $ x $, $ y $ 의 서포트가 $ S_X $, $ S_Y $ 일 때 $ x \in S_X $ 에 대하여 다음이 성립한다.
$ \sum_y y p (y \mid x) = \sum_y y \frac{p(x, y)}{p_X(x)} = a + bx $
$ \sum_{x \in S_X} \sum_y y p (x, y) = \sum_{x \in S_X} (a+bx) p_X(x) $
$ \mu_Y = a + b \mu_X $
그렇다면 다음과 같은 식을 만들 수 있다.
$ \sum_{x \in S_X} \sum_y x y p(x, y) = \sum_{x \in S_X} (ax + bx^2) p_X(x) = a \sum_{x \in S_X} xp_X(x) + b \sum_{x \in S_X} s^2 p_X(x) $
즉 다음과 같다.
$ E(XY) = aE(X) + b(X^2) $
이를 다시 나타내면 다음과 같다.
$ \mu_X \mu_Y + \rho \sigma_X \sigma_Y = a \mu_X + b (\mu_X^2 + \sigma_X^2 ) $
이를 통하여 $ a $ 와 $ b $ 를 구하면 다음과 같다.
$ a = \mu_T - \rho \frac{\sigma_Y}{\sigma_X} \mu_X $, $ b = \rho \frac{\sigma_Y}{\sigma_X} $
이는 만약 $ E( Y \mid x ) $ 가 선형이라면 다음과 같다는 것을 보여준다.
$$ E(Y \mid x) = \mu_X + \rho \frac{\sigma_Y}{\sigma_X} (x - \mu_X) $$
위 식은 최소제곱 회귀직선과 일치한다.
'Statistics > Mathematical Statistics' 카테고리의 다른 글
[Mathematical Statistics] 이변량 정규분포(bivariate normal distribution) (0) | 2025.01.17 |
---|---|
[Mathematical Statistics] 조건부 기댓값(conditional expectation) 및 조건부 분산(conditional variance) (0) | 2025.01.17 |
[Mathematical Statistics] 다항분포(multinomial distribution) (0) | 2025.01.15 |
[Mathematical Statistics] 확률변수의 선형함수에 대한 기댓값과 분산 (0) | 2025.01.15 |
[Mathematical Statistics] 확률변수 함수의 기댓값 (0) | 2025.01.15 |