위치측도 (Measures of Position)
자료를 정렬했을 때의 위치를 나타내는 측도들이다. 표본 데이터에 주로 사용되기에 정렬 가능하다는 가정이 되어 있다.
위치 측도 자체로는 많은 것을 알아내기 어렵지만, 위치 측도를 활용하면 데이터의 분포, 개형 등을 확인할 수 있다.
- $ Q_i $ | 사분위수 (Quartiles)
자료를 네 개의 같은 갯수를 가진 그룹으로 나누고, 각 기준값을 위치 측도로 삼는다. 오름차순으로 정렬된 데이터의 인덱스를 $ i $, 자료의 크기를 $ n $ 이라 할 때, $ f_i = \dfrac{i-1}{n-1} $ 의 값이 0.25, 0.5, 0.75 가 되는 값이 각 사분위수가 되고, 차례대로 $ Q_1, Q_2, Q_3, $ 라 부른다. 특성상 $ Q_2 $ 는 중앙값과 같다.
만약 $ \dfrac{i-1}{n-1} $ 의 값이 정확히 떨어지지 않는다면 양 값을 평균낸다. 예를 들어 자료의 크기가 15 여서 $ f_4 = 0.2143 $ 이고, $ f_5 = 0.2857 $ 이라면 데이터의 값이 $ V_4, V_5 $ 라 할 때 $ Q_1 = \dfrac{V_4 + V_5}{2} $ 이다.
- $ p_i $ | 백분위수 (Percentiles)
사분위수가 자료를 사등분한 것이라면 백분위수는 백등분한 것이다. 사분위수와 같은 방식으로 각 수를 정한다. 특성상 $ p_{25} = Q_1 $, $ p_{75} = Q_3 $ 이며, $ p_{50} = Q_2 $ 이면서 중앙값이다.
- $ D_i $ | 십분위수 (Decile)
자료를 십등분하여 위치 측도로 삼은 것이다.
중심위치측도 (Mesure of Central Tendency)
대푯값이라고도 한다. 자료를 가장 잘 보여줄 수 있으리라 기대하는 값이다. 대부분 대푯값은 단일한 값이다.
- $ \mu, \text{ } \bar{X} $ | 산술 평균 (Arithmetic Mean)
$$ \dfrac{1}{n} \sum^n_{i=1} a_i $$
일반적으로 산술이라는 말을 제외하고 평균이라 하면 산술평균을 말한다. 자료의 모든 값을 더하여 자료의 크기로 나누어 얻어진다.
표본 값의 평균이 모집단의 평균과 크게 다르지 않다는 장점이 있지만, 극단적인 값(이상값)에 취약하다는 단점이 있다.
- 가중 평균 (Weighted Mean)
$$ \dfrac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i} $$
개별 값에 특정 값을 가중하여 평균을 산출하는 방법이다. 확률론에서의 기댓값을 생각하면 각 값에 확률을 곱해서 모두 더하여 기댓값을 구한다.
- 절사 평균 (Trimmed Mean)
산술 평균을 계산할 때 이상값을 절사하여 계산하는 방법이다. 산술 평균이 극단적인 값에 취약하다는 단점이 있어 사용될 때가 있다. 어디부터 이상값으로 볼 것이냐는 다양한 기준이 있다. 최고점, 최저점을 절사하기도 하고, 박스 플롯의 경우는 사분위수 범위인 $ IQR $ 을 변형하여 이상값을 판정한다.
- 기하 평균 (Geometric Mean)
$$ \sqrt[n]{\prod_{i=1}^{n} a_i} $$
변량을 모두 곱한 후 거듭제곱근을 취해 계산하는 방법이다. 연간 이자율 같은 시계열 데이터에서 주로 사용된다.
단 곱하는 성분 중 0 이 있으면 안되고, 모든 성분의 곱이 0 보다 작을 경우 주의해야 한다.
- $ \tilde{X} $ | 중앙값 (Median)
중위수라고도 불린다. 데이터의 중앙에 있는 값이며 홀수일 때는 $ (n+1) / 2 $ 번째 값, 짝수일 때는 $ n / 2 $ 번째 값과 $ (n / 2) + 1 $ 번째 값의 산술 평균이다. 사분위수의 $ Q_2 $, 백분위수의 $ p_{50} $ 과 동일하다.
평균대비 이상값에 영향을 덜 받는 장점이 있기 때문에 이상치가 존재하거나 이상치가 존재할 가능성이 있을 때 사용된다.
- 최빈값 (Mode)
최빈수라고도 불린다. 가장 빈번하게 등장하는 값으로 최빈값이 여러 개일 수도 있다.
각 값의 수치적 평균이 의미 없고, 대소 관계가 없을 때 유용하며 따라서 질적 자료의 대푯값으로 많이 사용된다.
산포측도 (Measures of Dispersion)
자료가 얼마나 퍼져있는지를 보여주는 측도이다. 대푯값이 같더라도 자료가 퍼진 정도가 다를 수 있고, 산포도가 같더라도 대푯값이 다를 수 있기 때문에 자료를 대략적으로 확인할 때도 중심위치측도와 산포 측도를 모두 확인하는 것이 좋다.
- 범위 (Range)
$$ \max - \min $$
최댓값과 최솟값의 차이로 데이터가 가진 값의 범위를 나타낸다. 계산이 간단하지만, 이상값의 영향을 굉장히 받기 쉽기 때문에 유용하진 않다.
- $ IQR $ | 사분위수 범위 (Interquartile Range, IQR)
$$ Q_3 - Q_1 $$
사분위수를 이용한 범위이다. 중앙 50% 구간만 범위로 사용하는 것이다. 이상값의 영향을 받을 가능성은 낮지만, 일부 자료를 배제한다.
상자 플롯에서 $ IQR $ 에 1.5 를 곱한 값보다 중앙값에서 떨어져 있으면 이상값으로 판정한다.
- $ \sigma $ | 모분산 (Population Variance) 및 모표준편차 (Population Standard Deviation)
$$ \sigma^2 = \dfrac{\sum_{i=1}^{N} (x_i - \mu)^2}{N} $$
분산은 모든 값에서 평균을 뺀 값인 편차를 제곱하고, 그것을 모두 더한 후에 자료의 크기로 나누어 구한다. 즉 차이값의 제곱의 평균이다. 제곱하지 않고 더하면 당연하게도 0 이 되므로 제곱하는 것이다.
표준편차는 분산의 제곱근이다. 분산을 통해서 각 데이터가 평균에서 얼마나 떨어져 있는지 대략적으로 알았다면 제곱근을 취하여 평균에서 평균적으로 얼마나 떨어져 있는지, 즉 편차의 평균을 알 수 있고, 이것이 표준편차이다.
제곱의 평균에서 평균의 제곱을 빼서 계산도 가능하다.
$$ \sigma^2 = \dfrac{\sum_{i=1}^{N} x_i^2}{N} - \left( \dfrac{\sum_{i=1}^{N} x_i}{N} \right)^2 $$
- $ S $ | 표본분산 (Sample Variance) 및 표본표준편차(Sample Standard Deviation)
$$ s^2 = \dfrac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1} $$
자료가 모집단의 자료가 아니라면 $ N $ 으로 나누는 것이 아니라 $ (n - 1) $ 로 나누어야 한다. 이는 표본분산의 기댓값이 모분산의 $ \dfrac{n-1}{n} $ 배에 수렴하기 때문에 $ \dfrac{n}{n-1} $ 을 원래의 표본의 분산인 $ \dfrac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n} $ 에 곱했기 때문이다.
제곱의 평균에서 평균의 제곱을 빼는 간편식을 이용해서 계산하는 것 역시 가능하다. 단 $ n - 1 $ 로 나눠주는 것을 주의해야 한다.
$$ s^2 = \dfrac{1}{n-1} \left( \sum_{i=1}^{n} x_i^2 - n \bar{x}^2 \right) $$
- 변동계수 (Coefficient of Variation)
$$ \dfrac{\sigma}{\mu} \quad \text{or} \quad \dfrac{s}{\bar{x}} $$
표준편차는 자료의 숫자 자체가 커지면 같이 커진다는 단점이 있다. 이를 해결하기 위해 표준편차를 평균으로 나누어 산포도를 확인한 것이 변동계수이다. 변이계수라고 하기도 한다.
'Statistics > Descriptive Statistics' 카테고리의 다른 글
[Descriptive Statistics] 왜도(skewness)와 첨도(kurtosis) (0) | 2024.09.27 |
---|---|
[Descriptive Statistics] 자료의 종류와 요약 및 시각화 (0) | 2024.09.10 |