Processing math: 3%

All Posts

[Mathematical Statistics] 마르코프 연쇄에 대한 정상분포(stationary distribution)
·
Statistics/Mathematical Statistics
정상분포 (Stationary Distribution) πi0 이고, iπi=1 인 행 벡터 \boldsymbol{\pi} = ( \pi_1, \pi_2, \cdots, \pi_M) 가 모든 j 에 대하여 다음과 같다고 가정하자. \sum_i \pi_i P_{ij} = \pi_j 그렇다면 \boldsymbol{\pi} 를 전이행렬이 P 인 마르코프 연쇄에 대한 정상분포라 한다. 정상분포는 정상상태분포(steady-state distribution), 정적분포, 안정상태분포라고도 한다.마르코프 연쇄의 장기적인 움직임, 즉 시간이 충분히 경과했을 때 수렴하는 확률 분포이다. 연쇄가 일시적 상태(transient states..
[Mathematical Statistics] 마르코프 연쇄에서의 상태 분류
·
Statistics/Mathematical Statistics
도달가능 및 상호도달가능 (Accessible and Communicate) 기본적으로 이항 관계(링크)에 대한 부분을 알고 있으면 도움된다. • 도달가능 (accessible)만일 상태 i 에서 시작하여 결국 상태 j 에 도착할 확률이 0 보다 크면, 즉 P_{ij}^{(n)} > 0 n \in \mathbb{Z}_+ 이 존재하면 상태 j 는 상태 i 에서 도달가능하다고 하며, i \to j 라 표기한다. • 상호도달가능 (communicate)만일 상태 i 와 상태 j 에 대하여 P_{ij}^{(n)} > 0 P_{ji}^{(m)} > 0 m, n \in \mathbb{Z}_+ 이 존재하면 $ i ..
[Web] 하이퍼텍스트 전송 프로토콜(HTTP, hypertext transfer protocol)
·
Web Programing/Web
HTTP HTTP 프로토콜이라고도 한다. 사실 HTTP에 P가 프로토콜의 약자라 HTTP 프로토콜이라 하면 동어 반복이라 명확히는 HTTP라 하는게 맞긴 하다.HTTP는 웹에서 데이터를 주고받는 프로토콜로, 서버와 클라이언트 간 통신 규칙을 정의한다. 일반적으로 웹 서버와 크롬, 엣지 등 웹 브라우저 간 요청(request)과 응답(response)을 처리하는 역할을 한다. 또한, HTTP의 기본 포트는 80번을 사용한다.서버와 클라이언트의 연결이 지속되지 않는 비연결식이기에 클라이언트와 서버 간 최대 연결 수보다 많은 요청과 응답을 처리할 수 있고, 따라서 불특정 다수에게 서비스하는 경우에 적합하다. 그러나 다른 한편으로는 HTTP는 무상태(stateless) 프로토콜이므로 요청과 응답이 끝나면 연결이..
[Mathematical Statistics] 전이행렬(transition matrix) 및 n단계 전이확률 그리고 채프먼-콜모고로프 방정식(Chapman–Kolmogorov equation)
·
Statistics/Mathematical Statistics
전이행렬 (Transition Matrix) 확률변수 열 X_0, X_1, \cdots 을 유한상태공간 S = \{ 1, 2, \cdots, M \} 를 갖는 마르코프 연쇄라 하고, 임의의 i , j \in S 에 대하여 P_{ij} = P(X_{n+1} = j \mid X_n = i ) 를 상태 i 에서 상태 j 로의 전이확률이라 하자. 그렇다면 M \times M 행렬 P = \left(P_{ij} \right) 를 연쇄 전이행렬 또는 추이행렬이라 한다.전이확률이 음수가 될 수 없기 때문에 전이행렬은 비음행렬(nonnegative matrix)이고, 전이확률의 특성상 전이행렬의 임의의 행의 합은 1 이다.예를 들어 날씨가 맑음, 흐름, ..
[Mathematical Statistics] 마르코프 성질(Markov property) 및 마르코프 연쇄(Markov chain)
·
Statistics/Mathematical Statistics
마르코프 성질 (Markov Property) 어떤 시점 n \in T 에서 확률변수 열 \{X_n\}_{n \in T} 의 모든 과거 상태 X_0, X_1, \cdots, X_n 이 주어지더라도 X_{n+1} 의 예측은 X_n 에만 의존하는 경우 확률변수 열 \{ X_n\}_{n \in T} 는 마르코프 성질을 갖는다고 한다.여기서 T 는 관찰시점들의 총집합이다. 마르코프 연쇄 (Markov Chain) 상태공간 S = \{ 0, 1, 2, \cdots, M \} 에 속한 값을 갖는 확률변수 열 X_0, X_1, \cdots 이 모든 n \geq 0 에 대해 다음 성질을 가진다 가정하자.$$ P(X_{n+1}  = j \mid X_n..
[Data Structure] 여러가지 해시 함수(hash function) 및 해시 충돌(hash collision) 방안
·
Computer Science and Engineering/Data Structure
여러가지 해시 함수 (Hash Function) 제산 함수테이블크기 m 을 소수로 선택하고, 탐색키를 테이블크기로 나눈 나머지를 사용한다.폴딩 함수탐색키를 여러 부분으로 나눈 후, 이동 폴딩(shift folding) 또는 경계 폴딩(boundary folding) 방식으로 결합한다.중간제곱 함수탐색키를 제곱한 뒤, 결과의 중간 몇 개 비트를 추출하여 해시 주소로 사용한다.비트추출 함수탐색키를 이진수로 변환한 후, 임의의 위치에서 k 개의 비트를 선택해 해시 주소로 만든다.숫자 분석 방법탐색키의 편중되지 않는 숫자들을 적절히 조합하여 테이블크기에 맞는 주소를 생성한다. 충돌 (Collision) 서로 다른 탐색키를 갖는 항목들이 같은 해시 주소를 가진다면 문제가 생길 것이고, 이를 충돌이라..
[NLP] 검색증강생성(RAG, retrieval-augmented generation)
·
Artificial Intelligence/Natural Language Processing
검색증강생성 (RAG) 기존 대규모 언어 모델(LLM)은 학습된 내용을 바탕으로 답을 하기 때문에 학습되지 않은 최신 데이터에 대한 오류가 발생할 수 있고, 다양한 맥락으로 해석될 여지가 있는 대화에서 오해를 가져올 수 있다. 또한 어느 모델이나 가지고 있는 문제인 할루시네이션이 발생할 가능성이 있다. ChatGPT 서비스 초반 대한민국 대통령이 누구냐는 질문에 이미 대선이 치뤄진 이후였음에도 훈련되었을 때의 정보인 문재인 대통령이라 답한 것이 대표적인 예일 것이다.이러한 LLM의 단점을 보완하기 위해, 정확히는 출력을 최적화하기 위해 지정된 지식 베이스를 참조하도록 하는 프로세스 기술이 검생증강생성이다. 모델에게 사용자의 질문과 함께 그 질문에 답하기 위한 지식 정보도 같이 주는 것이라 생각하면 편할 ..
[Inferential Statistics] 가능도비 검정(likelihood ratio tests)
·
Statistics/Inferential Statistics
가능도비 검정 (Likelihood Ratio Tests) 가능도 함수를 L (x_1, x_2, \cdots, x_n \mid \theta_1, \theta_2, \cdots, \theta_k) = L(\boldsymbol{\theta}) , (\boldsymbol{\theta} = (\theta_1, \theta_2, \cdots, \theta_k)) 로 표기하고, 모수공간(parameter space)을 \Omega 로 표기하겠다. 귀무가설은 H_0 : \boldsymbol{\theta} \in \Omega_0 로 표기할 수 있고, 대립가설은 H_a : \boldsymbol{\theta} \in \Omega_a 로 표기할 수 있겠다. 전체 모수공간 $ \Omega =..
[Inferential Statistics] 검정력(power of tests)과 최강력검정(most powerful test) 및 균일최강력검정(uniformly most powerful test)
·
Statistics/Inferential Statistics
검정력 (Power of Tests) 모수 \theta 를 포함하는 가설검정에 대해 W 가 검정통계량이고, RR 이 기각역이라면 검정력 \text{power}(\theta) 는 실제 모수값이 \theta 일 때 검정이 올바르게 H_0 를 기각하게 할 확률이다. 즉 다음과 같다. \text{power} (\theta) = P(W \in RR \mid \theta) 만약 귀무가설이 H_0 : \theta = \theta_0 이고, 대립가설이 H_a: \theta = \theta_a (\theta_0 \neq \theta_a) 일 때를 가정하자. 잘 사용하지는 않지만, H_0 가 참인데 H_0 를 기각할 확률을 $ \text{pow..
[Inferential Statistics] 분산 및 등분산에 대한 검정
·
Statistics/Inferential Statistics
분산에 대한 검정 기본적인 절차는 기존 가설검정과 동일하다. 단 모집단이 평균이 \mu 이고, 분산이 \sigma^2 인 정규분포를 따른다는 기본 가정을 충족해야 한다.이때 카이제곱분포를 이용하는데, 아래에서 \chi^2_\alpha 는 자유도가 n - 1 인 카이제곱분포에 대하여 P(\chi^2 > \chi^2_\alpha ) = \alpha \chi^2_\alpha 이다.  우측검정(upper-tail test)양측검정(two-tail test)좌측검정(lower-tail test)귀무가설 H_0 : \sigma^2 = \sigma^2_0 대립가설H_a : \sigma^2 > \sigma^2_0 $$H_a : \sigma^2 \neq \si..
애스터로이드