전체 글

[Inferential Statistics] 가설 검정(hypothesis test) 및 1종 오류(type Ⅰ error)와 2종 오류(type Ⅱ error) 그리고 절차
·
Statistics/Inferential Statistics
가설 검정 (Hypothesis Test) 통계학의 목표는 모집단을 추정하기 위해 표본을 뽑고, 그 표본에 포함된 정보를 기반으로 모집단의 특징을 추론하며, 그 추론이 적절한지를 평가하는 것이다.이를 위해서는 먼저 표본을 어떻게 잘 뽑을 것인지가 중요한데, 이를 위해 복원 추출, 비복원 추출, 랜덤 샘플링 등의 방법이 이야기되었다. 모집단의 특징을 파악하는 과정에서는 산포나 대푯값과 같은 개념이 사용되었다. 모집단의 특징을 효과적으로 확인하기 위해서는 표본의 특성을 분석해야 하며, 이를 위해 점추정량과 그 성질이 논의되었다.이제 이러한 방법들을 종합하여 모집단을 추정하고, 그 결과가 신뢰할 만한지 검정해야 하는데, 이것을 가설 검정이라 한다. 좀 더 정확히는 어떤 모수의 값이나 확률분포에 대해 가설을 세..
[Hugging Face] 허깅페이스 소개 및 모델 업로드
·
Git & Hub/Hugging Face
허깅페이스 (Huggingface) 허깅페이스(링크)는 자연어 처리(NLP) 및 머신러닝(ML) 모델을 공유하고 활용할 수 있는 플랫폼으로 특히 트랜스포머(transformers) 라이브러리를 통해 다양한 사전 학습된 모델을 쉽게 사용할 수 있도록 지원한다.오픈소스 커뮤니티이고 자신의 모델을 저장하고, 다른 사람의 모델을 불러와 사용할 수 있다는 점에서 인공지능 분야의 깃허브라 생각하면 편하다. 허깅페이스에 모델 업로드 • 허깅페이스 가입당연하지만 허깅페이스에 가입해야 한다. 위 링크를 통해 접속한 후 오른쪽 위 Sign Up을 통해 가입한다.어차피 한국어는 지원하지 않기 때문에 영어로 가입하면 되는데, 처음에 사람인지 확인하는 절차가 나온다.이메일과 비밀번호를 넣고 Username과 Full name을..
[Inferential Statistics] 최대가능도법(method of maximum likelihood)
·
Statistics/Inferential Statistics
최대가능도법 (Method of Maximum Likelihood) 가능도 함수가 $ k $ 개의 모수 $ \theta_1, \theta_2, \cdots, \theta_k $ 에 의존한다고 하자. 그렇다면 다음과 같다.$$ \hat{\theta}_1, \hat{\theta}_2, \cdots, \hat{\theta}_k = \underset{(\theta_1, \theta_2, \cdots, \theta_k) \in \Theta}{\arg\max} L(x_1, x_2, \cdots, x_n \mid \theta_1, \theta_2, \cdots, \theta_k) $$또는 벡터를 이용하여 다음과 같이 나타낼 수 있다.$$ \boldsymbol{\hat{\theta}} = \underset{\bolds..
[Inferential Statistics] 적률법(method of moments)
·
Statistics/Inferential Statistics
적률법(Method of Moments) $ k $ 차 모적률과 $ k $ 차 표본적률을 일치시켜 모수를 추정하는 방법이다.$ k $ 차 적률($k$ th moment) 또는 $ k $ 차 모적률은 $ \mu_k^\prime = E(X^k) $ 이다. 엄밀하게는 $ k $ 차원(점) 적률($k$ th moment about the origin)이다.$ k $ 차 표본적률($k$ th sample moment about the origin)은 $ m_k^\prime = \frac{1}{n} \sum_{i=1}^n X_i^k $ 이다.추정해야 하는 모수의 개수를 $ t $ 라 할 때, 식 $ \mu_k^\prime = m_k^\prime $, $ k = 1, 2, \cdots, t $ 의 해가 되는 모수의 ..
[Inferential Statistics] 바수 정리(Basu theorem)
·
Statistics/Inferential Statistics
보조통계량 (Ancillary Statistic) 통계량의 분포가 모수 $ \theta $ 에 의존하지 않으면 그 통계량을 보조통계량이라 한다.보조통계량은 단독으로는 $ \theta $ 에 대한 정보를 가지고 있지 않다. 그러나 다른 통계량과 함께 사용되면 때때로 $\theta $ 의 추론을 위한 가치있는 정보를 포함하기도 한다. 바수 정리 (Basu Theorem) $ X_1, X_2, \cdots, X_n $ 을 $ f (x \mid \theta) $, $ \theta \in \Theta $ 로부터 구한 확률표본이라 하자. 이때 $ Y = u (X_1, X_2, \cdots, X_n) $ 가 $ \theta $ 에 대한 완비충분통계량이고, $ Z = v(X_1, X_2, \cdots, X_n) $ 가..
[Inferential Statistics] 레만-셰페 정리(Lehmann–Scheffé theorem)
·
Statistics/Inferential Statistics
레만-셰페 정리 (Lehmann–Scheffé Theorem) $ U $ 가 $ \theta $ 에 대한 완비충분통계량이라 하자. 만일 $ U $ 의 함수 $ \phi (U) $ 가 $ \theta $ 에 대한 불편추정량이면 $ \phi (U) $ 는 $ \theta $ 의 유일한 최소분산 불편추정량이다.즉 완비충분통계량 $ U $ 의 유일한 비편향 함수 $ T = \phi(U) $ 는 최소분산 불편추정량이다.레만-셰페 정리를 통해 완비충분통계량에 종속된 불편추정량은 유일하다는 것을 알 수 있고, 즉 불편추정랴의 유일성을 보장하고, 이를 통해 더 나은 불편추정량을 찾으려 할 필요가 없다는 것을 알 수 있다.더보기모수 $\theta $ 가 존재할 때 $ U $ 가 $ \theta $ 의 충분통계량이고, 어..
[Inferential Statistics] 점추정량의 완비성(completeness)
·
Statistics/Inferential Statistics
분포족 (Family of Distributions) 분포모임이라고도 한다. 공통 표본공간 $ S $ 상의 확률밀도함수들 또는 확률질량함수들의 색인된 모음 $ \mathcal{P} = \{ f ( x \mid \theta) \text{ } : \text{ } \theta \in \Theta \} $ 를 분포족이라 한다. 이때 $ \Theta $ 는 모수 공간이다. 완비통계량 (Complete Statistic) 통계량 $ U $ 의 확률밀도함수 또는 확률질량함수가 분포족 $ \{ f ( x \mid \theta) \text{ } : \text{ } \theta \in \Theta \} $ 에 속한다고 하자. $ \theta $ 에 무관한 어떤 함수 $ g $ 와 모든 $ \theta $ 에 대해 $ E_..
[Inferential Statistics] 최소분산 불편추정량(MVUE, minimum variance unbiased estimator)
·
Statistics/Inferential Statistics
최소분산 불편추정량 (MVUE) 만일 $ \hat{\theta} $ 이 $ \theta $ 에 대한 불편추정량, 즉 $ E(\hat{\theta}) = \theta $ 이고, $ \hat{\theta} $ 의 분산이 $ \theta $ 에 대한 모든 다른 불편추정량의 분산보다 크지 않다면 $ \hat{\theta} $ 을 최소분산 불편추정량이라 한다.피셔-네이만 인수분해 정리는 데이터에 포함된 모수 $ \theta $ 에 대한 정보를 가장 잘 요약하는 통계량, 즉 최소 충분통계량 $ U $ 를 찾아주었고, 라오-블랙웰 정리는 기존 추정량보다 더 작은 분산을 갖는 추정량을 찾아주었다.다시 말하면, 라오-블랙웰 정리를 적용하면 평균은 같고, 분산은 더 작은 즉 더 좋은 불편추정량을 얻을 수 있었다. 근데 그..
[Inferential Statistics] 라오-블랙웰 정리(Rao-Blackwell theorem)
·
Statistics/Inferential Statistics
라오-블랙웰 정리 (Rao-Blackwell Theorem) $ \hat{\theta} $ 을 $ V(\hat{\theta}) $$ E(\hat{\theta}^{*}) = \theta $$$$ V(\hat{\theta}^*) \leq V(\hat{\theta}) $$더보기$ U $ 가 $\theta $ 에 대해 충분통계량이므로 $ U $ 가 주어진 경우 임의의 통계량의 조건부분포는 $ \theta $ 에 의존하지 않는다.$ \hat{\theta} $ 이 $ \theta $ 의 불편추정량이므로 다음이 성립한다.$ E(\hat{\theta}^*) = E[E(\hat{\theta}\mid u)] = E(\hat{\theta}) = \theta $따라서 $ \hat{\theta}^* $ 는 불편추정량이다.$ V..
[Inferential Statistics] 피셔-네이만 인수분해 정리(Fisher–Neyman factorization theorem)
·
Statistics/Inferential Statistics
피셔-네이만 인수분해 정리 (Fisher–Neyman Factorization Theorem) $ U(X_1, X_2, \cdots, X_n) $ 를 확률표본 $ X_1, X_2, \cdots, X_n $ 에 기반한 통계량이라고 하자. $ U $ 가 모수 $ \theta $ 의 추정을 위한 충분통계량이기 위한 필요충분조건은 $ L(\theta) = L(x_1, x_2, \cdots, x_n \mid \theta) $ 가 다음과 같이 음이 아닌 두 함수의 곱으로 분해되는 경우이다.$$ L(x_1, x_2, \cdots, x_n \mid \theta) = g(u \mid \theta) h(x_1, x_2, \cdots, x_n) $$여기서 $ g( u \mid \theta) $ 는 $ u = U(x_1, x..
애스터로이드
인공지능은 전기양의 꿈을 꾸는가