기댓값과 분산

 

  • $ E(X) $ | 기댓값 (Expected Value)

$$ E(X) = \sum_{i=1}^{n} x_i p_i $$

$$ E(X) = \int_{-\infty}^{\infty} x f(x) dx $$

어떤 확률변수가 평균적으로 가지리라 기대되는 값이다. 즉 확률 과정에서 얻을 수 있는 모든 값에 확률로 가중 평균한 것이다. 이산확률변수는 $ \sum $ 을 사용하여 가중 평균하고, 연속확률변수는 $ \int $ 을 사용하여 가중 평균한다.

 

  • $ Var(X) $ | 분산 (Variance)

$$ Var(X) = \sum_{i=1}^{n} (x_i - E(X))^2 p_i $$

$$ Var(X) = \int_{-\infty}^{\infty} (x - E(X))^2 f(x) dx $$

각 확률변수 값이 기댓값과 얼마나 떨어져있는가를 나타내는 값이다. 확률변수 값에서 기댓값을 뺀 뒤 제곱한 값을 가중 평균한 것이다. 제곱하지 않고 각 확률변수 값에서 기댓값을 뺀 뒤에 가중 평균한다면 음수와 양수 둘 다 존재할 수 있기 때문에 제곱하여 구한다. 이산확률변수는 $ \sum $ 을 사용하여 가중 평균하고, 연속확률변수는 $ \int $ 을 사용하여 가중 평균한다. 만약 분산이 0 이라면 그 확률변수를 퇴화(degenerate)한 확률변수라 한다.

분산을 구할 때는 다음과 같은 형태의 간편식도 많이 사용된다.

$$ Var(X) = E(X^2) - (E(X))^2 $$

 

  • $ \sigma_X $ | 표준편차 (Standard deviation)

$$ \sigma_X = \sqrt{Var(X)} $$

분산을 구하기 위해 각 확률변수의 값이 기댓값과 얼마나 떨어져있는가를 계산하면서 제곱하였기 때문에 다시 제곱근을 취해준 값이 표준편차이다. 말 그대로 각 확률변수 값이 기댓값에서 표준적으로 얼마나 편차를 가지는가를 나타낸다.

 


기댓값과 분산의 성질

 

  • 기댓값의 성질

상수 $ a $, $ b $ 와 확률변수 $ X $, $ Y $ 를 가정할 때 다음이 성립한다.

$$ E(a) = a $$

$$ E(aX) = a E(X) $$

$$ E(X + a) = E(X) + a $$

$$ E(aX+bY) = aE(X) + bE(Y) $$

만약 확률변수 $ X $, $ Y $ 가 독립이라면 다음이 성립한다.

$$ E(XY) = E(X)E(Y) $$

 

  • 분산의 성질

상수 $ a $ 와 확률변수 $ X $, $ Y $ 를 가정할 때 다음이 성립한다.

$$ Var(a) = 0 $$

$$ Var(X + a) = Var(X) $$

$$ Var(aX) = a^2 + Var(X) $$

만약 확률변수 $ X $, $ Y $ 가 독립이라면 다음이 성립한다.

$$ Var(X + Y) = Var(X) + Var(Y) $$

만약 확률변수 $ X $, $ Y $ 가 독립이 아니라면 다음이 성립한다.

$$ Var(aX + bY) = a^2 Var(X) + b^2 Var(X) + 2ab Cov(X, Y) $$

 

  • $ Cov(X, Y) $ | 공분산 (Covariance)

$$ Cov(X, Y) = \sigma_{XY} = E \left[ (X - E(X))(Y - E(Y)) \right] = E(XY) - E(X)E(Y) $$

두 확률변수 간에 존재하는 선형적 관계를 평균적으로 측정한 값이다. 즉 한 확률변수의 증감에 따른 다른 확률변수의 증감의 경향에 대한 측도이다.

두 확률변수가 독립이라면 선형적 관계가 나타나지 않으므로, 또 다르게는 독립일 때 $ E(XY) = E(X)E(Y) $ 이므로 공분산은 0 이다.

 

애스터로이드