All Posts

[Inferential Statistics] 모평균 및 모평균의 차에 대한 소표본 검정 및 강건성(robustness)
·
Statistics/Inferential Statistics
소표본 검정 대표본 검정에서는 중심극한정리(CLT)를 이용할 수 있었지만, 소표본 검정에서는 이를 적용하지 못한다. 따라서 모집단이 정규분포를 따른다는 가정이 필요하다.대표적으로 소표본에서 정규분포를 따른다고 가정하는 추정량을 이용하여 추정하는 모수는 모평균, 두 모평균의 차 등이 있다. 각 모수에 대한 점추정량과 표준오차는 소표본 신뢰구간(링크)을 참고하면 된다.예를 들어 귀무가설과 대립가설이 다음과 같다고 하자.H0:θ=θ0,Ha:θ>θ0검정통계량 θ^ 는 표본평균 X¯ 이고 기각역은 선택된 k 값에 대해 RR={X¯>k} 이다. 일반적인 가..
[Inferential Statistics] p-값(p-value)
·
Statistics/Inferential Statistics
p-값 (p-value) 유의 확률(significance probability, asymptotic significance)이라고도 한다.귀무가설 H0 가 참이라는 가정 아래 관측된 표본에서 그 결과 또는 그보다 극단적인 결과가 나타날 확률을 말한다. 즉 지금의 결과가 귀무가설이 참이라는 전제 아래 얼마나 우연히 일어난 결과인지를 보여준다.실제로 사용되는 의미에서 표현하면 p-값은 관측된 자료가 귀무가설이 기각되어야 한다는 것을 나타내는 유의수준인 α 의 최소수준이다. 즉 p 이 유의수준 α 이하이면 귀무가설을 기각한다.따라서 p-값이 높다는 것은 이 결과가 우연히 일어난 결과임을 말하기에 귀무가설을 기각할 근거가 약하다는 것을 의미하며, 반대로 p-값이..
[Inferential Statistics] 대표본 검정과 2종 오류 확률 및 표본 크기 결정
·
Statistics/Inferential Statistics
대표본 검정 추정량을 θ^ 라 할 때, 추정량의 표집분포가 근사적으로 평균이 θ, 표준오차 σθ^ 인 정규분포를 따른다는 가정을 기반으로 한다. 즉 중심극한정리(CLT)를 이용한다.대표적으로 대표본에서 정규분포를 따른다고 가정하는 추정량을 이용하여 추정하는 모수는 모평균, 이항모수, 두 모평균의 차, 두 이항모수의 차가 있다. 각 모수에 대한 점추정량과 표준오차는 대표본 신뢰구간(링크)을 참고하면 된다.예를 들어 귀무가설과 대립가설이 아래와 같다고 가정하자.H0:θ=θ0,Ha:θ>θ0검정통계량은 θ^ 이고, 기각역은 선택..
[Inferential Statistics] 기각역(rejection region) 설정
·
Statistics/Inferential Statistics
기각역 설정 기각역은 귀무가설을 기각하는 기준, 즉 가설 검정 자체의 기준이기 때문에 적절한 값을 선택해야 한다. 그렇기에 이 기각역을 어떻게 설정하는가에 대해 고민해야 한다.예를 들어보자. A 후보의 지지율이 50%를 넘는지에 대해 조사하기 위해 여론조사를 실시하였는데, 이때 15명의 유권자를 조사하였다. A 후보의 지지율을 p 라 하고, 귀무가설 H0:p=0.5 를 대립가설 Ha:p \alpha = P(X\leq 2, p = 0.5) = \sum_{x = 0}^2 \binom{15}{x} (0.5)^x (1-0.5)^{15-x} \approx 0.0037 $1종 오류 확률인 유의수준은 0.37%로 아주 낮다. 즉 A 후보가 50% 이상의 지지율을 얻음에도 얻지 못한다..
[Inferential Statistics] 가설 검정(hypothesis test) 및 1종 오류(type Ⅰ error)와 2종 오류(type Ⅱ error) 그리고 절차
·
Statistics/Inferential Statistics
가설 검정 (Hypothesis Test) 통계학의 목표는 모집단을 추정하기 위해 표본을 뽑고, 그 표본에 포함된 정보를 기반으로 모집단의 특징을 추론하며, 그 추론이 적절한지를 평가하는 것이다.이를 위해서는 먼저 표본을 어떻게 잘 뽑을 것인지가 중요한데, 이를 위해 복원 추출, 비복원 추출, 랜덤 샘플링 등의 방법이 이야기되었다. 모집단의 특징을 파악하는 과정에서는 산포나 대푯값과 같은 개념이 사용되었다. 모집단의 특징을 효과적으로 확인하기 위해서는 표본의 특성을 분석해야 하며, 이를 위해 점추정량과 그 성질이 논의되었다.이제 이러한 방법들을 종합하여 모집단을 추정하고, 그 결과가 신뢰할 만한지 검정해야 하는데, 이것을 가설 검정이라 한다. 좀 더 정확히는 어떤 모수의 값이나 확률분포에 대해 가설을 세..
[Hugging Face] 허깅페이스 소개 및 모델 업로드
·
Git & Hub/Hugging Face
허깅페이스 (Huggingface) 허깅페이스(링크)는 자연어 처리(NLP) 및 머신러닝(ML) 모델을 공유하고 활용할 수 있는 플랫폼으로 특히 트랜스포머(transformers) 라이브러리를 통해 다양한 사전 학습된 모델을 쉽게 사용할 수 있도록 지원한다.오픈소스 커뮤니티이고 자신의 모델을 저장하고, 다른 사람의 모델을 불러와 사용할 수 있다는 점에서 인공지능 분야의 깃허브라 생각하면 편하다. 허깅페이스에 모델 업로드 • 허깅페이스 가입당연하지만 허깅페이스에 가입해야 한다. 위 링크를 통해 접속한 후 오른쪽 위 Sign Up을 통해 가입한다.어차피 한국어는 지원하지 않기 때문에 영어로 가입하면 되는데, 처음에 사람인지 확인하는 절차가 나온다.이메일과 비밀번호를 넣고 Username과 Full name을..
[Inferential Statistics] 최대가능도법(method of maximum likelihood)
·
Statistics/Inferential Statistics
최대가능도법 (Method of Maximum Likelihood) 가능도 함수가 k 개의 모수 θ1,θ2,,θk 에 의존한다고 하자. 그렇다면 다음과 같다.θ^1,θ^2,,θ^k=argmax(θ1,θ2,,θk)ΘL(x1,x2,,xnθ1,θ2,,θk)또는 벡터를 이용하여 다음과 같이 나타낼 수 있다.$$ \boldsymbol{\hat{\theta}} = \underset{\bolds..
[Inferential Statistics] 적률법(method of moments)
·
Statistics/Inferential Statistics
적률법(Method of Moments) k 차 모적률과 k 차 표본적률을 일치시켜 모수를 추정하는 방법이다.k 차 적률(k th moment) 또는 k 차 모적률은 μk=E(Xk) 이다. 엄밀하게는 k 차원(점) 적률(k th moment about the origin)이다.k 차 표본적률(k th sample moment about the origin)은 mk=1ni=1nXik 이다.추정해야 하는 모수의 개수를 t 라 할 때, 식 μk=mk, k=1,2,,t 의 해가 되는 모수의 ..
[Inferential Statistics] 바수 정리(Basu theorem)
·
Statistics/Inferential Statistics
보조통계량 (Ancillary Statistic) 통계량의 분포가 모수 θ 에 의존하지 않으면 그 통계량을 보조통계량이라 한다.보조통계량은 단독으로는 θ 에 대한 정보를 가지고 있지 않다. 그러나 다른 통계량과 함께 사용되면 때때로 θ 의 추론을 위한 가치있는 정보를 포함하기도 한다. 바수 정리 (Basu Theorem) X1,X2,,Xnf(xθ), θΘ 로부터 구한 확률표본이라 하자. 이때 Y=u(X1,X2,,Xn)θ 에 대한 완비충분통계량이고, Z=v(X1,X2,,Xn) 가..
[Inferential Statistics] 레만-셰페 정리(Lehmann–Scheffé theorem)
·
Statistics/Inferential Statistics
레만-셰페 정리 (Lehmann–Scheffé Theorem) Uθ 에 대한 완비충분통계량이라 하자. 만일 U 의 함수 ϕ(U)θ 에 대한 불편추정량이면 ϕ(U)θ 의 유일한 최소분산 불편추정량이다.즉 완비충분통계량 U 의 유일한 비편향 함수 T=ϕ(U) 는 최소분산 불편추정량이다.레만-셰페 정리를 통해 완비충분통계량에 종속된 불편추정량은 유일하다는 것을 알 수 있고, 즉 불편추정량의 유일성을 보장할 수 있고, 이를 통해 더 나은 불편추정량을 찾으려 할 필요가 없다는 것을 알 수 있다.더보기모수 θ 가 존재할 때 Uθ 의 충분통계량이..
애스터로이드