인공지능관련/PET 프로젝트

인공지능, EM 알고리즘, MIxture Model, Pet

학위논문통계 2021. 9. 10. 23:13

1. 모형선택

 

지난 글에서 최적의 모형을 선택하는 문제에서 내포모형이 아닌 경우 AIC, BIC, NIC 이런 값들을 사용한다고 했습니다.

 

내포모형인 경우 회귀분석에서는 F검증이나 회귀모형이 아닌 경우 카이 제곱이나 G2 같은 것을 사용합니다.

 

일반인들은 이 모형 선택의 문제는 사실 앞에서 이야기한 것처럼 많이 접하는 경우가 아닙니다. 흔히 논문에서 많이 하는 경우는 요새 박사 논문에서 많이 사용하는 패널데이터를 이용한 잠재성장모형을 할 경우입니다.

 

패널데이터인 경우 사회과학에서는 잠재성장모형을 가지고 많이 작업합니다. 각 변수들의 변화들간의 구조적 인과관계를 밝히는 모형인데요.

 

성인들에게 적용하기는 좀 힘듭니다. 왜냐하면 성인들의 인식은 잘 안 변하거든요. 그러나 최근에는 워낙 생각들이 잘 바뀌어서. 20대들이 반민주당 성향이 대표적이죠.

 

하여간 이런 이유로 이 잠재성장모형은 사춘기인 청소년 대상 패널 데이터인 경우 이 잠재성장모형을 많이 적용합니다.

 

 

이 잠재성장 모형은 크게 2부분으로 나눠집니다. 첫 번째는 각 변수들의 변화의 모형을 찾는 것이고요. 두 번째는 각 변수들의 초기값과 변화율 간의 구조적 인과관계를 검증하는 것입니다. 따라서 이 두 번째 과정은 일반 구조방정식 모형을 적용하는 것과 같습니다. 오직 다른 것은 이게 패널 데이터이기 때문에 각 변수마다 원 변수 값을 사용하지 않고 2개의 변수 즉 초기값과 변화율이라는 변수가 들어간다는 차이 밖에 없습니다.

 

예를 들어 요즘 시끄러운 반페미 정서와 정당 지지율 관계를 한번 보자는 것이죠.

 

그럼 한 10년 간 반페미 정서와 특정 정당의 친페미 성향에 대한 인식, 그리고 그 정당의 지지율을 조사했다고 하죠.

 

그럼 첫 번째 작업이 3개의 변수인 반페미 정서, 정당의 친페미 성향에 대한 인식, 그 정당의 지지도가 10년 동안 어떻게 변해왔는지 통계적 모형을 찾아야 합니다.

 

그래서 가장 단순한 것이 10년간 반페미 정서에 변화가 없다는 모형 즉,

 

M0: y=b0

 

그 다음 복잡한 모형이 10년간 반페미 정서가 선형적으로 늘었다는 모형, 선행 모형, 즉,

 

M1: y=b0+b1*t

 

여기서 M0는 M1에서 b1=0인 특수한 케이스인 모형인 것을 알 수 있습니다. 그래서 M1 ⊃ M0이 됩니다. 즉 앞에서 이야기한 내포모형(nested model)이 됩니다.

 

그럼 조금 더 복잡한 모형을 생각해보죠. 즉 이차함수모형 M2입니다.

 

M2: y=b0+b1*t+b2*t^2

 

그림 M2 ⊃ M1 ⊃ M0 이런 내포모형이 됩니다. 이 경우 어떤 모형이 가장 최적인가 판단할 때 카이제곱 검증을 합니다.

 

사실 이런 복잡한 과정을 하지 않고 매년 평균값 구해서 찍어보면 눈에 금방 보입니다.

 

하여간 잠재성장모형에서 첫 번째 과정으로 반페미정서, 특정 정당의 친페미 성향 인식, 그 정당의 지지도의 변화에 대한 모형을 선택해야 합니다.

 

 

2. 인공지능, EM 알고리즘, Mixture Mode, PET

 

EM 알고리즘은 대부분 논문 쓰는 사람은 알 필요가 없는데 이 AMOS 구조방정식 모형에서 결측값 문제가 생기면 EM알고리즘을 쓰라고 나와서 사람들이 궁금해 하고 있죠. SPSS에서는 결측값이 있으면 이 결측값이 있는 데이타는 없는 것으로 생각하고 그냥 결과물 내 줍니다. 전체 자료에서 결측값이 있는 자료는 몇 개 없거든요. AMOS에서 구조방정식 돌리시는 분들은 신경쓰지 말고 그냥 데이터에서 결측값 제외한 다음 구조방정식을 돌리세요.

 

 

 앞에서 인공지능에서 supervised 기법과 unsupervised 모형을 설명했는데요.

 

이 중간쯤 기법으로 정확한 정답, 즉 남자인가, 여자인가, 개인가 고양이인가 하는 이런 정답이 없을 경우 좀 통계학적으로 마치 있는 것처럼 하는 방법이 없을까 하는 생각이 들 수 있습니다.

 

이 정답 변수를 관찰되지 않는 변수 U라고 하고 이 U를 수학적으로, 통계학적으로 처리해서 뭔가 할 수 있지 않을까 하는 생각을 할 수 있다는 것이죠.

 

이런 문제의 대표적인 예가 혼합모형(mixture model)입니다. 실험계획에서 나오는 혼합모형(mixed model)과 다릅니다.

 

 

예를 들어 학생들 국어 점수를 예를 들어 보죠, 학생들 국어 점수 X1 부터 X100까지 값이 있습니다.

 

그런데 우리의 관심은 여학생 점수의 평균과 표준편차(m1과 s1), 남학생 점수의 평균과 표준편차(m2와 s2)를 알고 싶다는 것이죠. 이 경우 남학생, 여학생 정보가 있으면 문제 해결은 간단합니다. 그냥 남학생 따로, 여학생 따로 데이터 모아서 표본평균과 표본편차를 구하면 됩니다.

 

그러나 이 성별에 대한 정보가 없으면 어떻게 해결할까요, 100명 중 여학생 비중을 r1, 남학생 비중을 r2 이렇게 가정하고 혼합모형으로서 해결을 하려고 합니다. 그러나 이 경우 우도, 즉 확률밀도함수 자체를 쓰는 것조차 쉽지가 않습니다.

 

여학생 국어 성적 확률분포를 f~N(m1, s1),

남학생 국어 성적 확률분포를 g~N(m2, s2)

 

이라 하면

 

특정학생의 확률밀도함수 h는

 

h=r1*f+r2*g

 

이렇게 됩니다. 그래서 이 모양이 2개의 확률분포 f와 g의 결합된 모양이라 해서 혼합모형이라 합니다.

 

직관적으로 쉽게 이해가 되는데 수학적으로 또는 통계적으로 저 h가 어떻게 도출되는지 잘 모르겠다면 조금 더 생각해보시기 바랍니다. 기초통계학에서 나오는 결합밀도함수와 조건부 분포, 주변분포 이런 개념에서 도출된 것입니다.

 

즉, 학생이 성별을 U라 하고 U의 확률 분포를 f(u)라 하면

 

h(x)= ∫f(x,u)du=∫f(x|u)*f(u)du

 

여기서 U는 성별의 분포이니까 위 적분은 남자와 여자인 경우 딱 2가지이여서 summation으로 바뀌고 여자인 확률 r1와 남자인 확률 r2가 들어간 것에 불과합니다. 이 과정이 기초통계학에서 나온 간단한 공식에 불과하지만 이 em 알고리즘을 이해하는 데 가장 중요한 공식입니다.

 

 

이런 문제를 한번 생각해보죠. 이런 종류는 우리나라 저널에서는 실어줄 것 같은데요.

 

성인의 키 H, 몸무게 W, 그리고 허리둘레 W 데이타가 있다고 해보죠. 그리고 실제 성별의 대한 정보 S도 있다고 해보죠.

 

그럼 우리가 이 성별에 대한 정보가 없는 것처럼 생각하면 2가지 방법으로 남자와 여자의 키, 몸무게, 허리둘레의 평균을 추정할 수 있습니다. 하나는 앞에서 이야기한 바와 같이 먼저 군집분석을 해서 남자와 여자 집단으로 나누고 나눠진 2 집단에서 평균을 추정하면 됩니다.

 

또 하나는 지금 이야기한 남녀집단을 분류하지 않고 혼합모형을 사용하여 남녀의 키, 몸무게, 허리둘레의 평균값을 추정할 수 있습니다.

 

그리고 실제 데이터에 있는 남녀 정보를 이용해서 진짜 데이터 상에서의 남녀의 키, 몸무게, 허리둘레의 평균값을 추정할 수 있습니다.

 

이 3가지 경우의 추정값이 어떻게 다른지 비교할 수 있다는 것이죠. 군집분석을 이용하는 것이 좋은지, 아니면 EM 알고리즘을 사용하는 것이 좋은지 판단할 수 있다는 것이죠. 또 이게 데이터 수가 많아질수록 어떻게 달라지는지 이런 종류의 작업을 할 수 있을 겁니다. 마지막으로 판별분석 결과와도 비교할 수 있을 겁니다.

 

하여간 변수가 정규분포일 경우 통상 GMM(Gaussian Mixture Model)이라 합니다. 인공지능에서 많이 사용하는 용어입니다.

 

 

정규분포가 아니고 포아송 분포일 경우 대표적인 예를 PET 문제입니다. Positron Emission Tomography라고 하죠.

 

병원에서 이상한 둥근 통 안에 사람들 집어넣어서 뇌사진 찍는 모습을 많이 봤을 겁니다.

 

이게 통 안에 사람들 머리가 들어가면 여러 방향에서 뇌에 입자를 쏩니다. 뇌의 특정 부위가 좀 이상하면 이 입자가 튀어 나온다고 합니다. 그럼 이 통 의 여러 부분에서 뇌에서 튀어 나온 이 입자들의 수를 센다는 것이죠.

 

그래서 이 통의 특정 부위에서 튀어나온 입자의 수는 포아송 분포를 한다고 가정할 수 있는데 이게 뇌의 어떤 부위에서 온 것인지 알 수가 없다는 것이죠. 그래서 이 관찰되지 않는뇌의  부위가 hidden 변수이고 unobserved 변수입니다.

 

통의 특정부위에서 관찰한 입자는 뇌의 다양한 부위, 다양한 소스에서 오는 데이터입니다. 이 경우 혼합모형을 사용할 수 있다는 것입니다.

 

우주에서 signal이 들어오는데 이 signal이 어떤 은하계에서 오는지 이런 문제를 한번 상상해보라는 것이죠.

 

 

이 Pet 모형의 설명은 Shepp와 Vardi 논문을 찾아보시고요. 매우 유명한 논문입니다.

 

그리고 EM 알고리즘은 Dempster et al. 논문을 찾아보시기 바랍니다. 이 논문에서 EM 알고리즘이 나왔습니다. 일단 EM을 이해하기 위해서는 일반 교과서에서 설명하는 것을 먼저 보시고 나중에 이 Dempster 논문을 보기 바랍니다.

 

다음에는 이 EM 알고리즘을 이해하는데 필요한 개념을 설명하겠습니다.

 

인터넷에 검색해보면 남녀와 같이 앞면이 나올 확률이 다른 동전 2개를 가지고 쉽게 설명을 하고 있는데요. 이것 가지고는 이론적으로 이해할 수 없고요. 이론적으로 이해할 수 없다는 이야기는 다른 문제, 즉 자신이 스스로 풀어야 하는 문제에서는 전혀 손을 될 수 없다는 것이죠. 이미 알려져 있는 문제는 공식에 맞춰 R 같은 것으로 프로그램 짜서 돌리면 끝납니다.

 

그래서 처음 접할 때 왜 이 EM 알고리즘이 이론적으로 이해가 힘든지 그 부분을 설명하겠다는 이야기입니다.

 

그런데 본인이 직접 풀 수는 없을 겁니다. 이 EM 문제 풀려면 다양한 조건부 확률분포, 주변확률분포 이런 것을 구해야 하는데 이게 쉽지 않을 겁니다. 남이 하지 않는 것 풀었으면 외국 유명 저널에서 실을 수 있죠.

 

 

 

'인공지능관련 > PET 프로젝트' 카테고리의 다른 글

MLE 실제 구해보기  (0) 2016.04.02
EM의 예, 결측값의 경우  (0) 2014.06.29
EM 알고리즘 2  (0) 2014.06.20
EM 알고리즘 1  (0) 2014.06.18
여행하는 세일즈 문제 1  (0) 2013.07.14