통계이론/기타통계이론

마코브 체인의 응용

학위논문통계 2013. 6. 25. 11:22

 

 

1. 지난번에 랜덤walk 모형을 소개했습니다. 술취한 사람을 적도에 세워놓고 북으로 가면 +1, 남쪽으로 내려오면 -1로 했을 경우 시간이 한창 지나면 어떻게 될까 하는 것인죠. 이 임의행보 모형은 마코프 프로세스입니다. 특정 시점 t에서 위치가 M라 하면 (t+1)에서 M+1이 될 확률은 0.5, M-1이 될 확률은 0.5입니다. 기타의 위치로 갈 확률은 전부 0이죠. 이게 전이확률(transition probability)입니다.

 

이 Markov chain은 확률분포에서 베르누이 시행이 가징 기본이 되는 분포인 것처럼 시간에 따라 현상이 변하는 stochastic process도 이 마코프체인이 가장 기본이 되는 프로세스입니다.

 

우리의 예에서 적도 즉 위치가 0에서 출발했지만 처음 출발이 M이라 하면 이건 도박 모형이 됩니다. 즉 카지노에 M원을 가지고 가서 돈을 따면 +1원, 읽으면 -1원 이렇게 하면 약간 현실에 가까운 도박 모형이 된다는 것이죠. 또 인구모형도 될 수 있습니다. 특정 시점에 인구가 M이라 하면 일년간 늘어난 인구 K명, 사망으로 사라진 인구 S명 하면 시간에 따른 인구변화를 알 수 있죠. 그래서 이 임의행보 모형에서 약간씩 가정을 변화시키면 다양한 응용방향이 생길 수 있습니다.

 

 

 

 

2. 우리나라 소득 분배의 흐름을 파악할 수 있습니다. 예를 들어 소득분포를 10구간으로 나눕니다. 그래서 일년 후 사람들의 소득구간 분포의 흐름을 파악합니다. 1구간을 가장 고소득이라 하고 10구간을 가장 저소득이라고 하면 i구간에서 j 구간으로 갈 확률이 전이확률이 됩니다. 이걸 제대로 하려면 최소한 십만명 정도 페널 데이터로 조사를 해야 할 것 같죠. 통상 발표되는 소득구간 분포 통계는 전이확률을 구할 수 없기 때문에 마코프 이론을 적용할 수 없습니다.

 

실제로 이걸 응용한 회사도 있습니다. J.P. Morgan인가요. CreditMetrics라고 기업들의 신용 정도를 몇 등급으로 나눠 신용 i 등급에서 j 등급으로 갈 확률을 구해 마코프 체인을 적용하여 썼습니다. CreditMetrics가 있으니까 RiskMetrics도 있겠죠. 구글에서 한번 검색해 보세요. 세상이 좋기 좋군요.

 

 

1) 요새 야구 류현진 선수에 관심이 많으니까. 이것도 마코프 체인을 응용해 볼 수 있습니다. 구종을 몇 개로 나누면 특정 구종을 던졌을 경우 다음 공은 어떤 구종인 확률을 구할 수가 있겠습니다. 즉 전이확률을 구할 수가 있다는 것이죠. 그래서 류현진 선수가 어떤 구종을 던질 확률(즉 state에 대한 확률, 통계 용어로 marginal 분포)보다는 특정 구종을 던졌을 경우 그 다음 구종을 던질 확률이 타자에게는 더 중요한 정보이죠. 일본이나 미국에서는 이걸 다 구할걸요. 분석하는 얘들이 있으니까요.

 

류현진 선수가 장기적으로 미국 MLB에 잘 적용할까요? 사람들 예측이 다 다를 수가 있죠. 지금은 잘했다, 못했다 왔다 갔다 하죠. 잘 던지고 못던지고 이것도 마코프 체인이라는 것이죠. 지금은 서로 교정중인 것이죠. 류현진 선수는 MLB에 적응하는 중이고, 미국 타자도 류현진 선수에게 적응 중이고요. 저는 조금 희망적으로 보고 있는 편입니다. 그래서 장기적으로 잘 던지고 못던지는 확률 분포가 있을 겁니다. 완봉같이 매우 잘 던지는 경우도 있을 것이고, 1회에 두드려 맞아 마운드에서 물러나는 경우도 있을 것이고. 그러나 장기적으로 어떤 확률 분포가 있을 것이라는 것이죠. 이런 분포가 존재하면 이걸 마코프 프로세스에서는 안정(stationary) 분포라고 합니다. 장기적인 균형 분포이죠.

 

 

2) 게임에서는 특정 돈 M0을 가지고 이야기했지만 돈이 아니고 환율이 될 수도 있고, 이자율이 될 수도 있고, 주가도 될 수 있습니다. 단지 다음 시점으로 변하는 단계에서 베르누이 시행이 아니고 정규분포 등 다른 분포가 오겠죠. 또한 삼차원 공간으로 확장하면 입자의 움직임도 될 수 있죠. 즉 브라운 운동입니다.

 

그럼 처음에 M에서 출발했다가 M+b, 또는 M-b가 되는 확률은, 또는 시간은 얼마 걸릴 것인가 하는 문제입니다. 이게 확률책에 많이 나오는 문제입니다. M 위, 아래에 있는 +b, -b를 barrier라고 합니다. 벽이라고 하죠. 이 barrier에 뚫었을 때 다양한 조건을 만들어 파는 것이 전에 말썽 많았던 KIKO(kick-in, kick-out) 옵션입니다. 잘 나가든 흑자 중소기업 많이 죽였죠, 이건 다음 정권에 제대로 파고 들어야 할 사건입니다. 아래 그림을 한번 보시죠

 

 

 

 

 

 

 

 

 

 

 

 

3. 임의행보를 그림으로 그리면 다음과 같습니다. 일정 시간 k가 지난 후 위치 평균만 이동했지만 기본적으로 같은 패턴을 가지고 움직이고 있습니다. 이와 같이 시간의 변화에도 불구하고 기본적인 패턴을 유지하는 것을 시간 불변(time invariant)시스템, 동질(homogeneous)시스템이리고 합니다. 위 그림 참조. 이런 경우 공분산 행렬이 변하지 않습니다. 즉 t와 t+j와의 공분산은 k 시간이 지난 후 (t+k)와 (t+k+j)의 공분산이 변하지 않습니다. 스케일이 일정한 프랙탈(fractal)이라고 볼 수 있습니다. 이건 통계학이나 계량경제학의 시계열 분석에서 나오는 안정(stationary)시계열의 기본 가정입니다.

 

이와 같은 homogenous 개념은 별 특별한게 아닙니다. 흔히들 “일상”이라고 이야기 하죠. 아침에 일어나 싰고, 밥먹고, 회사 출근하고 회사 퇴근하고. 이렇게 시간이 지나도 똑같은 패턴을 유지하는 것, 즉 시간에 불변하는 것(time invariant)을 homogeneous라고 합니다.  Markov 체인에서는 시간에 따라 전이확률행렬이 변하지 않으면 homogeneous라고 합니다.

 

 

 

 

4. 앞에서 임의행보 이야기 할 때 어떤 사람이 적도에서 걷더라도 언젠가는 북극이나 남극으로 간다고 이야기 했습니다. 즉

 

 

S(n)=X1+X2+...+Xn

 

 

 

여기서 Xi는 베르누이 시행입니다. 즉 북쪽으로 가면 +1, 남쪽으로 가면 -1입니다. 그러면 S(n)은 n 시간 후 술 취한 사람의 위치가 됩니다. 이 경우 시간이 무한대로 가면 이 사람은 북극이나 남극에 가게 되어 있습니다. 이런 경우 우리에게 주는 정보는 아무 것도 없습니다. 전혀 도움이 되지 않습니다.

 

반면 평균 거리 S(n)/n을 정의해보죠.

이 경우는 모두 0으로 수렴합니다. 모든 사람의 평균 간 거리는 0으로 간다는 것이죠. 좀 더 현실적으로 북쪽으로 가면 +1, 남쪽으로 가면 0으로 하고 북쪽으로 갈 확률은 p, 남쪽으로 갈 확률을 q=(1-p)라고 하면

 

 

S(n)/n ==> E[X]=p

 

 

 

로 간다는 것이죠. 특정후보를 지지하면 1, 지지하지 않으면 0이라고 하면 표본지지율 r(n)은 설문대상을 무한대로 하면 특정후보 지지율 진짜 지지율 p로 간다는 이야기입니다. 확률 1로 접근을 합니다.

 

이것도 별 도움이 안됩니다. 우리가 관심을 가지는 것은 위 아래 장벽이 있는 경우 그 장벽안, 또는 밖에 있을 확률입니다.

 

그래서 문제를 살펴보면 하나는 합 S(n)/1이고, 뒤는 평균 S(n)/n입니다. 앞의 합 S(n)/1은 p로 접근하는 속도가 너무 느리고, 뒤의 평균 S(n)/n은 p로 접근하는 속도가 너무 빠른다는 것이죠. 그래서 접근 속도를 좀 조절할 필요가 있습니다.

 

즉 S(n)/1 과 S(n)/n 사이에서 분모를 좀 조절해서 수렴하는 정도의 속도를 조절하자는 것이죠. 그래서 나온 분모가 루트(n)입니다. 이게 중심극한 정리입니다.

 

직관적으로 n이 상당히 크면

 

 

 

 

 

 

 

여기서 평균을 빼고 루트(n)를 꼽하면

 

 

 

 

 

 

 

이게 중심극한 정리입니다.

 

 

앞에서 평균은 모두 E[X]=p로 접근한다고 있습니다. 이걸 강한 대수의 법칙(SLNN:Strong Law of Large Number)이라고 합니다. 강한 것도 있으니까 약한 것도 있게죠. 약한 대수의 법칙(WLNN)도 있습니다.

 

강한 대수의 법칙과 약한 대수의 법칙, 그리고 반복대수의 법칙(law of iterated logarithm)에 대해서는 Feller 책의 강한 대수의 법칙 설명부분에 잘 나와 있습니다. 통계나 이쪽 전공할 분은 Feller 책을 보시고 SLNN과 WNLL가 어떻게 다른지 공부할 필요가 있습니다.