importance sampling, EM

인공지능관련/인공지능(AI)

importance sampling, EM

학위논문통계 2016. 5. 7. 11:42

정치에 대해 간단히 언급하고 글 쓰겠습니다.

1. 트럼프 열기가 쉽게 가라 앉지 않을거라 보입니다. 대통령이 될 가능성이 있고요. 트럼프 열기를 이해하려면 마이클 더글라스가 주연한 “falling down" 이라는 영화를 보시면 됩니다. 백인들 밑에 깔려 있는 정서이죠. 공식적으로 인종차별 발언을 할 수 없고, 또 흑인들은 차별하면 시끄러우니까 조심하지만 기타 유색인종에 대한 차별은 알게 모르게 벌어지고 있습니다.

차 사고 나면 유색인종이 절대적으로 불리합니다. 백인 경찰이 거의 다 백인 운전자 편을 들죠. 흑인들이 미국에 꽤 많은 것처럼 보이지만 10% 조금 더 될겁니다. 도시에서 빠져나가면 거의 다 백인뿐입니다. 영화나 드라마에서 농촌에서 사는 흑인 모습을 본 적이 아마 없을 겁니다. 차타고 도시 외곽에 있는 맥도날드 들어가면 백인들이 신기한 인종 보듯 쳐다 봅니다. 우리나라 사람들이 외국인 보듯 합니다.

저는 트럼프가 대통령이 되는게 오히려 한국에 더 나을거라 보입니다. 한국 스스로 외교문제를 해결할 능력을 키워야 합니다. 그러나 트럼프가 대통령이 되어도 자기 생각대로 하기는 쉽지 않아 보입니다.

2. 이번 총선의 가장 큰 피해자는 새누리당 김무성이죠. 잘못은 박근혜가 다 해는데 독박은 자기가 당한 꼴이죠. 그렇다고 남 탓도 못하죠. 평소 박근혜와 확실히 싸웠으면 오히려 이번 총선이 자기에게 유리하게 작동했을 것인데 항상 막판에 비겁하게 숙이고 그랬으니까 결국 이런 꼴을 당하는 것이죠.

이쪽도 마찬가지입니다. 김종인 영입을 잘했다고 하고, 지난 대선부터 진영 분열된다고 안철수 감싸고 하니까 지금 이 꼬라지가 된 것이죠. 앞으로 계속 개판칠겁니다. 그리고 대선에도 문재인과 안철수 싸움으로 질질 끌 것이고요. 안철수가 진보적 모습을 보인 것은 재벌문제이죠. 그러나 이게 평소 자기 철학이나 신념에서 온 것일까요. 아니죠. 자기가 안랩갖고 장사하다 보니까 재벌들에게 믾이 당한거죠. 재벌 대기업 입장에서 보면 안랩은 조그만 중소기업에 불과한 것죠. 자기가 당하니까 들고 일어난거지 평상시는 오직 권력 추구형 인간이고 자기가 손해보는 짓은 절대 안하는 인간이죠.

원칙이 아니면 가면 안됩니다. 나중에 더 큰 피해를 봅니다.

총선 후 국민의 당의 지지율이 급상승했는데 제가 보긴에 이게 국민의 당의 최대치로 보입니다. 총선 결과 국민이 당이 완전 전라도 당의 모습을 보인 것이죠. 전라도 밖의 전라도 출신 분들이 지역주의라는 욕을 먹는것이 겁나 총선 후 여론조사에서 국민의 당에 압도적 지지를 표한 것이라 보입니다. 그러나 현재 국민의 당의 구성원으로서는 절대 개혁적 모습을 보이기 힘들거라 보입니다.

휴... 절망적입니다. 살 맛 안닙니다.

정치 이야기는 몬테 카를로 이야기를 더해 보죠. 앞에서 적분할 때 몬테카를로 방법을 쓸 수 있다고 했는데 더 간단하게 하는 방법이 있습니다. h(x)를 구간 [a, b]에서 적분한다고 하죠. 그럼

가 됩니다. 중심극한정리(CLT)나 대수의 법칙에 의해

lim = E[X]

가 된다는 것을 잘 알 수 있습니다. 그래서 위의 적분 문제도

lim

가 됩니다. 즉 U[a, b]에서 랜덤 넘버를 뽑아내 함수 값에 넣고 그 함수값의 평균을 구하면 적분값이 됩니다. n을 굉장히 많이 뽑아내면요.

즉, 적분 문제가 이젠 확률, 통계의 문제로 바뀝니다.

여기서 사람들이 조금 머리를 굴립니다. 확률변수 X가 U[a, b], 즉 균등분포가 아니고 일반적인 f(x)라는 복잡한 확률분포를 가지고 있을 때 E[H(X)]를 구하는 방법을 생각한 것이죠.

방법은 간단합니다. 약간의 트릭을 써서

라는 것을 이용하면 됩니다. 이때 g(x)도 확률분포인데 쉽게 잘 뽑아낼 수 있는 확률분포입니다. 이때 g(x)를 proposal 분포라고 합니다. 앞으로 자주 나오는 분포입니다. 즉 쉽게 잘 뽑아낼 수 있는 확률분포 g(x)에서 몬테 카를로 방식으로 뽑아내여 h(x)*f(x)/g(x)에 대입해 평균값을 구하면 E[H(X)]를 구할 수 있다는 것이죠. 이런 방법을 importance 방법이라 합니다.

확률과 simulation에 대해 더 잘 알고 싶으면 ROSS 책을 권합니다. 두 책이 있고 인터넷에 돌아다닙니다. 물론 확률과 simulation에 관한 유명한 책들이 있지만 대부분 시간 낭비이고 이 ROSS라는 교수가 쓴 책을 권하고 싶습니다.

이 기댓값 구하는 것이 왜 중요할까요. 분포가 중앙을 중심으로 볼록하게 균형분포를 가지면 이때 기댓값이 극빈값이 되고 median이 됩니다. 그리고 표본 수가 많아지먄 대부분 이론에서는 정규분포로 갑니다. MLE도 표본 수가 많아지면 정규분포로 가지요. 정규분포의 지수부분을 보면

입니다. 이건 x와 u에 대해 대칭입니다. 즉 정규분포는 데이터 x에 대한 분포로도 볼 수 있지만 모수 u에 대한 분포로도 볼 수 있습니다. 이 이야기는 모수 u에 대한 사후확률분포에서도 적용될 가능성이 있다는 이야기입니다.

또 이 기대값이 중요한 이유는 또 있습니다. 통계학에서 잘 알려진 EM 알고리즘과 관련이 있습니다. EM 알고리즘은 간단합니다. MLE는 모수가 a 일때 f(x|a)를 최대로 하는 a를 구하는 것인데 EM 알고리즘은 이때 히든 변수 U를 첨가해 E[f(x, u|a)]를 최대화하는 a를 구하는 것입니다.

이

히든 변수 U를 집어 넣은 것이 이 알고리즘의 핵심입니다. 히든변수는 기교적으로 집어 넣을 수도 있지만 현실에서도 자주 보는 현상입니다. 사람들이 응답하지 않는 결측값이 히든 변수의 대표적인 예이고요. 의료쪽에서도 자주 나오는 모양입니다. 사람의 혈역형이 A, B, AB, O 형들은 사람들이 관찰할 수 있는 phenotype이라고 하는데 이는 관찰되지 않은 변수 genotype에서 나온다고 합니다. 그리고 제가 쓴 PET 프로젝트에서도 나옵니다. 사람들 머리의 뇌 상태는 관찰되지 않은 변수 U입니다. 그러나 이 뇌에 입자를 쏴 머리에서 반사되어 나오는 입자를 외부 둥그런 detector에서 관찰한 입자의 수가 관찰변수 X입니다.

이런 관찰되지 않는 변수가 있을 때 쓸 수 있는 방법이 EM 알고리즘이고 이때 기댓값을 구하는 것이 중요합니다.

앞서 우리나라 여론조사일때 실제 각 정당의 지지를 히든 변수 U로 보고 여론조사에서 나온 지지자 수를 관찰변수 X라 볼 수도 있습니다. 즉, 베이지안을 쓰지 않아도 기존 주류 학파의 방법에서도 이 EM 알고리즘을 도입하면 문제를 해결할 가능성이 있습니다. 제가 해보지는 않았습니다. 아머 이것 풀어내면 꽤 유명한 논문이 될 것 같은데 아직 했다는 이야기를 들어 본적이 없어서 실제로 하려면 잘 안되는 것 같죠.

하여간 이 히든변수가 시간에 따라 변하면 히든 마코프체인 모형이 되고 이게 스탠포드 정치학과 교수가 한 대선 예측 모형인 것 같고요. 또 문장인식에도 중요한 모형으로 알고 있습니다. 즉 히든 변수로 주어, 목적어, 부사 이런 것을 설정하고요, 여기서 관찰 된 단어들이 나온다는 것이죠. 사람의 말은 공학적으로는 그냥 시간에 따른 복잡한 함수입니다. 무지하게 복잡하죠. 앞에서 이야기했지만 이런 함수는 표현조차 못합니다. 그러나 이런 복잡한 함수는 사인과 코사인이라는 기본적인 함수의 선형결합 형태로 만들수가 있습니다. 즉 시간에 따른 복잡한 음성 함수를 사인과 코사인에 들어가 있는 주파수 형태의 함수로 바꿀 수가 있습니다. 이를 시계열 공간에서 주파수 공간으로 변환한다고 합니다.

이 주파수 모양을 보고 사람들이 말한 단어를 인식하고 이를 관찰된 변수 X라 하고 뒤에 보이지 않는 명사, 동사, 목적어 이런 것을 히든 변수 U라 하고 이 관찰된 단어 X가 히든 변수에서 나왔다고 보는 것이죠. 이게 제가 현재까지 제가 아는 음성 인식의 기본 알고리즘이라 알고 있습니다. 실제로 작업하면 무지하게 많은 문제점이 노출되겠죠. 그런 것까지 제가 알 수가 없고요.

저작자표시 비영리 변경금지

'인공지능관련 > 인공지능(AI)' 카테고리의 다른 글

그럼 MCMC는 도대체 뭔가? (0)	2016.05.13
mixture, Pet, neural net (0)	2016.05.09
여론조사와 몬테카를로 (0)	2016.05.02
세일즈맨 문제와 알파고 문제 (0)	2016.04.30
마코프체인 (0)	2016.04.26

현재글importance sampling, EM

학위논문통계

통계분석 사이트입니다. 간단한 논문 컨설팅은 무료이고 분석비용은 분석 수준에 따라 저널 통계 30-40, 석사 40-50, 박사 80-120 입니다. 구조방정식 과 계량경제 분석이 조금 비싼 편이고 박사는 학위 받을때까지 무료 수정해드립니다. 전화는 010-7547-3257, 멜은 datana@daum.net, 은행은 국민 638702 01 149167 허면 입니다.

구조방정식 조절효과 모형선택,

Today :
Yesterday :

학위논문통계