All Posts

[NLP] 검색증강생성(RAG, retrieval-augmented generation)
·
Artificial Intelligence/Natural Language Processing
검색증강생성 (RAG) 기존 대규모 언어 모델(LLM)은 학습된 내용을 바탕으로 답을 하기 때문에 학습되지 않은 최신 데이터에 대한 오류가 발생할 수 있고, 다양한 맥락으로 해석될 여지가 있는 대화에서 오해를 가져올 수 있다. 또한 어느 모델이나 가지고 있는 문제인 할루시네이션이 발생할 가능성이 있다. ChatGPT 서비스 초반 대한민국 대통령이 누구냐는 질문에 이미 대선이 치뤄진 이후였음에도 훈련되었을 때의 정보인 문재인 대통령이라 답한 것이 대표적인 예일 것이다.이러한 LLM의 단점을 보완하기 위해, 정확히는 출력을 최적화하기 위해 지정된 지식 베이스를 참조하도록 하는 프로세스 기술이 검생증강생성이다. 모델에게 사용자의 질문과 함께 그 질문에 답하기 위한 지식 정보도 같이 주는 것이라 생각하면 편할 ..
[Inferential Statistics] 가능도비 검정(likelihood ratio tests)
·
Statistics/Inferential Statistics
가능도비 검정 (Likelihood Ratio Tests) 가능도 함수를 $ L (x_1, x_2, \cdots, x_n \mid \theta_1, \theta_2, \cdots, \theta_k) = L(\boldsymbol{\theta}) $, $ (\boldsymbol{\theta} = (\theta_1, \theta_2, \cdots, \theta_k)) $ 로 표기하고, 모수공간(parameter space)을 $ \Omega $ 로 표기하겠다. 귀무가설은 $ H_0 : \boldsymbol{\theta} \in \Omega_0 $ 로 표기할 수 있고, 대립가설은 $ H_a : \boldsymbol{\theta} \in \Omega_a $ 로 표기할 수 있겠다. 전체 모수공간 $ \Omega =..
[Inferential Statistics] 검정력(power of tests)과 최강력검정(most powerful test) 및 균일최강력검정(uniformly most powerful test)
·
Statistics/Inferential Statistics
검정력 (Power of Tests) 모수 $ \theta $ 를 포함하는 가설검정에 대해 $W $ 가 검정통계량이고, $RR $ 이 기각역이라면 검정력 $ \text{power}(\theta) $ 는 실제 모수값이 $ \theta $ 일 때 검정이 올바르게 $ H_0 $ 를 기각하게 할 확률이다. 즉 다음과 같다.$$ \text{power} (\theta) = P(W \in RR \mid \theta) $$만약 귀무가설이 $ H_0 : \theta = \theta_0 $ 이고, 대립가설이 $H_a: \theta = \theta_a $ $(\theta_0 \neq \theta_a) $ 일 때를 가정하자. 잘 사용하지는 않지만, $ H_0 $ 가 참인데 $ H_0 $ 를 기각할 확률을 $ \text{pow..
[Inferential Statistics] 분산 및 등분산에 대한 검정
·
Statistics/Inferential Statistics
분산에 대한 검정 기본적인 절차는 기존 가설검정과 동일하다. 단 모집단이 평균이 $ \mu $ 이고, 분산이 $ \sigma^2 $ 인 정규분포를 따른다는 기본 가정을 충족해야 한다.이때 카이제곱분포를 이용하는데, 아래에서 $ \chi^2_\alpha $ 는 자유도가 $ n - 1 $ 인 카이제곱분포에 대하여 $ P(\chi^2 > \chi^2_\alpha ) = \alpha $ 인 $ \chi^2_\alpha $ 이다.  우측검정(upper-tail test)양측검정(two-tail test)좌측검정(lower-tail test)귀무가설$$ H_0 : \sigma^2 = \sigma^2_0 $$대립가설$$H_a : \sigma^2 > \sigma^2_0 $$$$H_a : \sigma^2 \neq \si..
[Inferential Statistics] 모평균 및 모평균의 차에 대한 소표본 검정 및 강건성(robustness)
·
Statistics/Inferential Statistics
소표본 검정 대표본 검정에서는 중심극한정리(CLT)를 이용할 수 있었지만, 소표본 검정에서는 이를 적용하지 못한다. 따라서 모집단이 정규분포를 따른다는 가정이 필요하다.대표적으로 소표본에서 정규분포를 따른다고 가정하는 추정량을 이용하여 추정하는 모수는 모평균, 두 모평균의 차 등이 있다. 각 모수에 대한 점추정량과 표준오차는 소표본 신뢰구간(링크)을 참고하면 된다.예를 들어 귀무가설과 대립가설이 다음과 같다고 하자.$$ H_0 : \theta = \theta_0, \qquad H_a : \theta > \theta_0 $$검정통계량 $ \hat{\theta} $ 는 표본평균 $ \bar{X} $ 이고 기각역은 선택된 $ k $ 값에 대해 $ RR = \{ \bar{X} > k \} $ 이다. 일반적인 가..
[Inferential Statistics] p-값(p-value)
·
Statistics/Inferential Statistics
p-값 (p-value) 유의 확률(significance probability, asymptotic significance)이라고도 한다.귀무가설 $ H_0 $ 가 참이라는 가정 아래 관측된 표본에서 그 결과 또는 그보다 극단적인 결과가 나타날 확률을 말한다. 즉 지금의 결과가 귀무가설이 참이라는 전제 아래 얼마나 우연히 일어난 결과인지를 보여준다.실제로 사용되는 의미에서 표현하면 p-값은 관측된 자료가 귀무가설이 기각되어야 한다는 것을 나타내는 유의수준인 $\alpha$ 의 최소수준이다. 즉 $ p-값 $ 이 유의수준 $ \alpha $ 이하이면 귀무가설을 기각한다.따라서 p-값이 높다는 것은 이 결과가 우연히 일어난 결과임을 말하기에 귀무가설을 기각할 근거가 약하다는 것을 의미하며, 반대로 p-값이..
[Inferential Statistics] 대표본 검정과 2종 오류 확률 및 표본 크기 결정
·
Statistics/Inferential Statistics
대표본 검정 추정량을 $ \hat{\theta} $ 라 할 때, 추정량의 표집분포가 근사적으로 평균이 $ \theta $, 표준오차 $ \sigma_\hat{\theta} $ 인 정규분포를 따른다는 가정을 기반으로 한다. 즉 중심극한정리(CLT)를 이용한다.대표적으로 대표본에서 정규분포를 따른다고 가정하는 추정량을 이용하여 추정하는 모수는 모평균, 이항모수, 두 모평균의 차, 두 이항모수의 차가 있다. 각 모수에 대한 점추정량과 표준오차는 대표본 신뢰구간(링크)을 참고하면 된다.예를 들어 귀무가설과 대립가설이 아래와 같다고 가정하자.$$ H_0 : \theta = \theta_0 , \qquad H_a : \theta > \theta_0 $$검정통계량은 $ \hat{\theta} $ 이고, 기각역은 선택..
[Inferential Statistics] 기각역(rejection region) 설정
·
Statistics/Inferential Statistics
기각역 설정 기각역은 귀무가설을 기각하는 기준, 즉 가설 검정 자체의 기준이기 때문에 적절한 값을 선택해야 한다. 그렇기에 이 기각역을 어떻게 설정하는가에 대해 고민해야 한다.예를 들어보자. A 후보의 지지율이 50%를 넘는지에 대해 조사하기 위해 여론조사를 실시하였는데, 이때 15명의 유권자를 조사하였다. A 후보의 지지율을 $ p $ 라 하고, 귀무가설 $ H_0 : p =0.5 $ 를 대립가설 $ H_a : p $ \alpha = P(X\leq 2, p = 0.5) = \sum_{x = 0}^2 \binom{15}{x} (0.5)^x (1-0.5)^{15-x} \approx 0.0037 $1종 오류 확률인 유의수준은 0.37%로 아주 낮다. 즉 A 후보가 50% 이상의 지지율을 얻음에도 얻지 못한다..
[Inferential Statistics] 가설 검정(hypothesis test) 및 1종 오류(type Ⅰ error)와 2종 오류(type Ⅱ error) 그리고 절차
·
Statistics/Inferential Statistics
가설 검정 (Hypothesis Test) 통계학의 목표는 모집단을 추정하기 위해 표본을 뽑고, 그 표본에 포함된 정보를 기반으로 모집단의 특징을 추론하며, 그 추론이 적절한지를 평가하는 것이다.이를 위해서는 먼저 표본을 어떻게 잘 뽑을 것인지가 중요한데, 이를 위해 복원 추출, 비복원 추출, 랜덤 샘플링 등의 방법이 이야기되었다. 모집단의 특징을 파악하는 과정에서는 산포나 대푯값과 같은 개념이 사용되었다. 모집단의 특징을 효과적으로 확인하기 위해서는 표본의 특성을 분석해야 하며, 이를 위해 점추정량과 그 성질이 논의되었다.이제 이러한 방법들을 종합하여 모집단을 추정하고, 그 결과가 신뢰할 만한지 검정해야 하는데, 이것을 가설 검정이라 한다. 좀 더 정확히는 어떤 모수의 값이나 확률분포에 대해 가설을 세..
[Hugging Face] 허깅페이스 소개 및 모델 업로드
·
Git & Hub/Hugging Face
허깅페이스 (Huggingface) 허깅페이스(링크)는 자연어 처리(NLP) 및 머신러닝(ML) 모델을 공유하고 활용할 수 있는 플랫폼으로 특히 트랜스포머(transformers) 라이브러리를 통해 다양한 사전 학습된 모델을 쉽게 사용할 수 있도록 지원한다.오픈소스 커뮤니티이고 자신의 모델을 저장하고, 다른 사람의 모델을 불러와 사용할 수 있다는 점에서 인공지능 분야의 깃허브라 생각하면 편하다. 허깅페이스에 모델 업로드 • 허깅페이스 가입당연하지만 허깅페이스에 가입해야 한다. 위 링크를 통해 접속한 후 오른쪽 위 Sign Up을 통해 가입한다.어차피 한국어는 지원하지 않기 때문에 영어로 가입하면 되는데, 처음에 사람인지 확인하는 절차가 나온다.이메일과 비밀번호를 넣고 Username과 Full name을..
애스터로이드
'분류 전체보기' 카테고리의 글 목록 (9 Page)