통계이론/주류통계

가능성함수(우도함수)와 MLE(최대가능성추정량)

학위논문통계 2013. 12. 28. 22:29

 

가능성함수(우도함수)와 최대가능성 추정량(MLE)를 구해달라는 분이 많아서 좀 적겠습니다. 엄밀한 가정들은 뺐습니다. 혹시 식 전개에 이상한 점이 있으면 이야기해주세요. 급하게 쓰는라.

 

 

통상 이건 통계학과 학부 2-3학년에서 수리통계학 수업에서 나옵니다. 보통 이 과목에서 통계 포기하게 되죠. 어렵다기 보다 개념이 잘 이해가 안되어서 그렇습니다. 왜 이걸 하는지 잘 모른다는 것이죠.

 

단순하게 말해 고등학교 통계에 나오는 표본평균, 표본의 분산, 또는 신뢰구간, 가설검증의 공식이 이론적으로 어떻게 해서 도출되었는지 배우는 과목입니다.

 

아마 여기서 가능성함수와 MLE를 구해달라는 분들은 데이타 분석 책이나 사회과학 책에서, 또는 SPSS 같은 통계프로그램에서 가능성함수와 MLE가 많이 나오는데 이게 도대체 뭔지 감이 잘 안와서 물어 보시는 것 같습니다. 통계학과 학생은 시험은 봐야 하는데 수리통계 과목을 이해하지 못해서 일단 구하는 방법이라도 알려고 질문하는 것 같습니다.

 

사회과학을 전공해도 본인이 학술분야에 깊숙이 공부하려면 통계학과에서 수리통계를 배워셔야 합니다. 고생이 되더라도요. 하여간 저는 이런 학문 분위기를 별로 안 좋아합니다. 자기 분야에 대한 통찰력도 없이 그냥 실험이나 데이터 같고 통계분석만 진창하는 이런 학술적인 분위기가 과연 옳은가 하는 점이죠. 그렇다고 이런 방법론 자체를 부정하는 것도 상당히 오바고요.

 

 

 

1. 먼저 가장 일반적인 MLE 구하는 방법을 이야기하겠습니다.

 

1) 가능성함수를 구한다. 이건 결합확률분포와 같습니다. 즉 X ~ f(x|u)라고 하고, X1, X2, ..., Xn 이 임의 표본이라 하면

 

 

가능성 함수 L(u|x1, x2,,,,,xn)=f(x1|u)f(x2|u)...f(xn|u)

 

확률분포를 그냥 곱하기 한 것입니다.

 

 

2) 가능성 함수에 log를 취합니다. 즉 logL(u|x)를 구합니다. 이건 계산의 편리함 때문에 그렇습니다. 이걸 하지 않는 경우도 있습니다. 여기서 log는 Ln을 의미합니다. 조금 고등수학가면 Ln이라는 기호를 쓰지 않습니다.

 

 

3) logL(u|x)를 최대값을 구합니다. 즉,

 

 

 

 

 

 

 

 

 

이라는 방정식을 세우고 u에 관해서 풉니다. 그럼

 

 

 

 

 

 

이런 형태로 풀어집니다. 이걸 가정한 분포의 모르는 모수 u에 대한  MLE라고 합니다.

 

 

2. 베르누이 시행

 

동전을 두 번 던집니다. 앞면이 나오는 1, 뒷면이 나오면 0이고 앞면이 나올 확률을 p라고 하죠. 동전을 던지니 처음에는 앞면, 두번째는 뒷면이 나왔다고 가정하죠. 즉 X1=1, X2=0입니다. 그러나 실제 관찰한 값은 무시하고 일반적으로 생각합니다. 먼저 확률분포는

 

 

 

 

 

 

 

if x=0, 1

 

이렇게 써야 집니다. 그러면 결합확률분포는 서로 독립이기 때문에 곱하기 하면 됩니다. 즉

 

 

 

 

 

 

 

 

 

 

이렇게 됩니다. 이게 가능성(우도함수)입니다. 이걸 log 취한 다음 p에 관해 미분해서 0으로 놓고 풀면 됩니다.

 

그럼

 

 

 

logL(p|x)=(x1+x2)logp+(2-x1-x2)log(1-p)

 

 

가 되고 이걸 p에 관해 미분하면

 

  

 

 

 

이걸 풀면

 

 

 

 

 

 

가 되고 이게 베루느이 시행에서 p에 대한 MLE입니다. 실제 추정값는 x1=0, x2=1을 대입하면 p에 대한 추정값은 1/2이 되죠.

 

일반적으로 n 번 동전을 던지면

 

 

 

 

 

 

 

 

이 됩니다. 즉 표본 평균이 됩니다. 이 공식은 조금 생각하면 동전 앞면이 나올 확률 p에 대한 추정은 앞면이 나온 횟수에 동전 던진 회수를 나눠 주면 됩니다. 만약 동전을 던지는 것이 아니고 지지도를 생각해보죠. 박근혜를 지지하면 1, 지지하지 않으면 0이라 하면 위의 표본평균은 바로 표본비율이 됩니다. 하여간 설문조사회사가 설문조사해서 지지율이라고 발표하는게 바로 위의 표본평균입니다. 즉 MLE를 구해서 발표하는 것이죠. 당사자는 그냥 엑셀이나 SPSS에서 돌려서 나온 것을 발표하는 것이지만요.

 

 

다음에는 정규분표에서 평균과 분산의 MLE 예와 균등분포의 경우의 예를 보여 드립겠습니다. 균등분포의 경우 위의 방식으로 잘 안됩니다. 그래서 수리통계 시험 문제에 매우 많이 나옵니다. 이런 경우입니다. 어떤 지역에 매일 강우량을 측정한다고 하죠. X1부터 X365 까지 데이터가 있게죠. 그럼 이 지역에서 최대 강우량의 추정치는 어떻게 될까요. 상식적으로 보면 관찰한 365개 강우량 값보다는 크겠죠. 하여간 MLE는 365개 강우량 중 최대값이 됩니다. 별로 좋지 않죠.

 

 

여러분이 SPSS에서 회귀분석을 돌리면 결과물에 회귀계수 값이 나옵니다. 이것도 MLE입니다. 이것 증명하는 것은 별 어렵지 않는데 행렬 표시가 나와서 좀 어렵게 느껴질 수 있습니다.

 

 

 

 

2. 고급 통계 분석으로 가면 위의 방법이 잘 안통하는 경우가 많이 있습니다. 이럴 경우 수치해석 방법을 구해야 합니다. 즉 최대값이 공식(closed form)으로 표시가 안되기 때문에 컴퓨터 프로그램을 짜서 근사치를 구해야 합니다. SPSS에서 반복회수가 메뉴에 나오면 이건 수치해석 방법으로 근사치를 구한다는 이야기고 여기에 MLE를 구한다고 하면 대부분의 경우 데이터의 분포를 정규분포를 가정하고 수치해석 방법으로 MLE를 구한다고 보시면 됩니다.

 

 

 

 

3. MLE를 구했는데 이 MLE가 어떤 분포를 가지는지 모르면 구한 MLE가 괜찮은 것인지, 또 신뢰구간 구하거나 가설 검증하는 것이 힘들어 집니다. 또 수치해석을 이용해서 MLE를 구한 경우도 그렇고요.

 

 

이 경우는 대수의 법칙을 이용합니다. 즉 표본수가 상당히 크다면 MLE는 BAN(Best Asymptotically Normal)이라는 매우 좋은 성질을 가지고 있습니다. 어떤 모수 u에 대한 MLE가 있다고 하면 표본수 n이 상당히 크면

 

 

 

MLE~ N(u, 어떤 분산)

 

 

 

을 한다는 이론이 있습니다. 즉 표본수가 크면 MLE는 모수 u를 중심으로 대칭 모양인 정규분포 모양을 하고 그리고 이 경우 분산은 다른 방법으로 한 것 보다 분산이 작게 나옵니다. 분산이 작다는 것은 우리가 데이터에서 구한 MLE 값이 u에 가까이 있을 가능성이 많다는 것입니다. 위의 어떤 분산은 Fisher 정보행렬에 반비례합니다. 즉 데이터가 가진 정보량이 많으면 위의 점근 분포에서 분산이 작아져 우리의 추정이 정확해질 가능성이 높아진다는 것이죠.

 

 

 

이 성질이 있기 때문에 Z 검증이나 카이제곱 검증 같은 것이 나옵니다.

 

 

다음에는 위의 베르누이 경우를 사용하면 좀 더 구체적으로 확률분포와 가능성 함수가 어떻게 다른지 설명하고요, 정규분포와 균등분포의 경우 구체적으로 MLE 구하는 방법을 쓰겠습니다. 그리고 지수계열 분포의 경우 MLE를 쉽게 구하는 방법이 있는데 이건 나중에 설명 드리겠습니다.

 

 

 

 

 

'통계이론 > 주류통계' 카테고리의 다른 글

가능성MLE 마지막 베이지안, 가설검증, LRT  (0) 2014.01.07
가능성함수(우도함수)와 MLE2  (0) 2013.12.30
조건부확룰4  (0) 2013.10.02
조건부확률3  (0) 2013.10.02
Rao-Balckewll정리, 조건부 기대값  (0) 2013.08.05