기타통계이야기/확률분포와 우도함수

확률분포와 우도함수(가능성 함수) 이해하기

학위논문통계 2013. 4. 1. 00:31

 

지금 옛날에 공부한 것이 제대로 기억이 안나 정확한지는 모르겠고요. 확인할 시간이 없어서요. 나중에 잘못된 것이 있으면 수정하겠습니다.

 

일반적으로 확률공간(Probability Space)라면 세 개의 요소가 들어 있는 집합공간입니다.

 

 

 

 

로 정의됩니다.

 

여기서 시그마는 표본공간(sample space)라고 하고, F는 시그마 필드라고 하고, P는 확률메저(measure)이라고 하는 확률분포를 이야기 합니다.

 

통상 표본공간에 대해서 잘 모르고 모집단(population)하고 혼돈하는 경우가 많습니다. 용어 자체가 좀 잘못된 것 같기도 하고요. 사건 공간이 더 좋지 않나 생각합니다.

 

표본공간은 관심있는 현상의 집합입니다. 즉 동전 던지기면 시그마={앞면이 나온다, 뒷면이 나온다} 이게 표본 공간이라는 것이죠. 모집단은 예를 들어 서울시 고등학생들의 수학 점수를 알고 싶어 서울시 고등학생들 몇 명을 표본 추출하여 조사하였으면 모집단은 사울시 고등학생이고, 만약 한 학교내에 있는 학생들 몇 명을 표본추출하였으면 모집단은 그 학교 학생들이 됩니다. 통계 결과를 보고 설정한 모집단을 벗어나는 곳까지 확대 해석하면 안되겠죠.

 

동전을 한번 던지는 경우

 

시그마={ 동전이 앞면이 나온다 , 동전이 뒷면이 나온다 }

 

이렇게 됩니다.

 

시그마 필드라는 F가 골치아픈 것인데 여러분은 그냥 표본공간 S의 모든 부분집합을 모아 놓은 집합이라 생각하시면 됩니다.

 

예를 들어 동전을 한번 던지면

 

F={공집합, 전체 집합 시그마, 즉 {동전이 앞면이 나온다 , 동전이 뒷면이 나온다}, {동전이 앞면이 나온다}, {동전이 뒷면이 나온다}}

 

이렇게 되고요. 왜 이 시그마 필드가 문제가 되냐면 고급 확률이론으로 가면 이 시그마 필드로 이야기를 많이 합니다. 옛날에 어떻게 공부했는지 모르겠네요. 이젠 봐도 가물가물합니다.

 

그리고 마지막 P 확률메저입니다. 통상 함수라면 실수공간에 있는 값에 다른 실수 공간의 값을 주는 것을 말하는데 이 P는 실수값에 값을 주는 것이 아니라 집합에다 값을 줍니다. 그래서 일종의 set function 입니다. 예를 들어

 

 

P({동전이 앞면이 나온다})=0.7,

 

P(시그마={동전이 앞면이 나온다, 동전이 뒷면이 나온다})=1

 

 

이렇게 집합에다 값을 주는 것이죠.

 

그런데 이렇게 실제 현상을 가지고 이론을 전개하려면 엄청 불편하죠. 말을 구질구질하게 써야 하잖아요.

 

그래서 이 실제현상을 우리가 자주 쓰는 실수공간으로 넘겨 버립니다. 이렇게 실제 현상을 실수공간으로 보내는 함수가 바로 확률변수 X입니다. 이렇게 확률변수를 정의함으로서 이젠 쓰기 편해졌다는 것이죠.

 

 

확률변수 X=0, 뒷면이 나오면

            X=1, 앞면이 나오면

 

 

이렇게 정의하면

 

 

시그마=(0, 1}

시그마 필드 F={공집합, 전체집합 시그마, {0}, {1}}

확률메저도 P({0})=0.3,  P({1})=0.7,  P({0,1})=1

 

이렇게 편하게 쓸 수 있죠. 통계 모형으로 가면 확률 메저는 통상

 

 

 

 

이렇게 쓰는데 이때 확률메저는 모수 세타에 대해 인덱스 되어 있다고 합니다. 마치 옷가게에서 옷에다가 가격표 딱지를 붙이는 것이랑 같은 개념입니다. 정규분포의 경우 세타는

 

 

 

 

 

로 평균과 표준편차 두 개의 모수로 구성되어 있죠. 이 세타가 유한 집합이면 모수 통계라고 하고, 모수의 갯수가 무한대이면 비모수 통계하고 합니다. 예를 들어 문제의 가정이 대칭 분포라고 하면 이때는 이 모수의 갯수는 무한대가 됩니다. 그래서 이 경우는 비모수 통계에 속합니다. 분포를 가정하고 안하고 따라서 모수통계와 비모수 통계가 갈리는 것이 아니고요.

 

 

 

하여간 그럼에도 불구하고 확률메저는 여전히 쓰기 불편하죠. 예를 들어 사람의 키를 보죠, 이건 위처럼 확률메저를 쓰는 것 자체가 불가능합니다.

 

 

P({키가 168.342})=0,

P({키가 163.245에서 173.125사이에 있다})=0.462

 

 

이렇게 쓰다가는 죽을때까지 써야 합니다. 그래도 불가능하죠. 그래서 나온 정리가 Randon-Nykodym 정리입니다. 즉 확률메저를 저렇게 질질 쓰지 않아도 어떤 함수의 적분 형태로 쓸 수 있다는 이야기입니다. 즉

 

 

 

 

 

를 만족하는 f(x)가 존재한다는 것입니다. 이 f(x)를 확률밀도함수라 부릅니다. 여러분이 아는 정규분포 식이 이 f(x)에 해당하는 것입니다. 여기서 A는 당연히 시그마 필드에 들어 있는 집합요소이지요. 이 정리가 있어서 우리는 확률메저라는 골치 아픈 것 대신 확률밀도함수 f(x)라는 함수를 가지고 편히 사용하고 있는 것이죠.

 

그래서 여러분이 아는 정규분포는 정확하게 이야기 하는 확률의 개념이 아닙니다. 실제로 f(x) 값이 1이 넘어가는 경우가 많습니다. 예를 들어 사람 키가 168.349843일 확률은 이건 0입니다. 그러나 정규분포 식에 넣으면 분명히 0이 아닌 값이거든요. 이산형 변수는 정확하게 확률의 개념입니다. 그러나 연속형인 경우도 확률처럼 생각해도 무방합니다. 잘게 디지털해서 적분하면 확룰이 되거든요.

 

앞에서 이야기 한 개념이 그리 어려운 개념이 아닌데도 불구하고 이걸 학생들에게 설명하기가 상당히 힘듭니다. 이게 불행인지 행운인지 몰라도 데카르트가 현상을 수의 세계로 넘기는 바람에 생겨난 현상으로 보입니다. 옛날에는 기하학 공부를 숫자로 해결하지 않았죠. 보조선을 그리거나 기하학 물체를 그려서 짜르거나 붙이거나 해서 증명을 하고 했다는 것이죠. 그러나 데카르트가 축을 도입하여 실제 기하학 물체에다 실수값을 주는 바람에 이젠 실체는 사라지고 오로지 숫자만 남은 세계가 되어 버렸다는 것이죠. 이걸 해석 기하학이라고 하죠. 데카르트가 했다고 해요. 옛날에 어디선가 읽은 기억은 있는데...

 

 

 

하여간 제가 여기서 설명하고자 하는 것은 이 확률밀도함수, 이젠부터 그냥 확률분포라고 하죠, 와 통계학 책에 나오는 likelihood의 구분에 대해서입니다. likelihood는 우도함수라고 번역되어 있는데 지금은 다른 말로 교체가 되었는지 모르겠습니다. 우도함수라고 하면 도대체 이 밀을 이해하는 사람들이 누가 있다고. 이게 다 옛날 일제하에서 공부한 노땅 교수들의 생각들이 모잘라서 그런 것이죠. 사실 함수라는 용어도 우리가 워낙 자주 쓰기 때문에 그냥 기계적으로 받아 드리는 것이지 사실 그 용어를 듣고 감이 오는 사람이 누가 있겠습니까. 관계식이 적절한 번역이라 봅니다. 관계는 수학에서 이미 다른 의미로 쓰이기 때문에 적절치 않고요.

 

저는 우도 함수라 하지 않고 가능성 함수라고 이야기 하겠습니다.

 

통계학 책에 보면 확률분포는 이렇게 기호화 되어 있습니다.

 

f(x, 세타) 또는 f(x; 세타)

 

라고 기호화해서 표현합니다. 이때 x는 당연히 데이터 값이고, 세타는 모수입니다. 즉 모르는 값이지만 우리가 데이터를 통해서 알려는 값입니다. 이 데이터를 통해서 이 모수를 알아야지 정확한 확률 분포식을 알고, 그래서 어떤 의사 결정을 한다는 것이죠.

 

 

그래서 우리가 데이터를 뽑거나 관찰해서 x 값을 정확히 알았다고 하죠. 그럼 세타를 어떻게 추정할 건가 하는 것이죠.

 

그래서 나온 것이 가능성 함수입니다. 이건 베이즈 정리를 사용하면 분명히 알 수 있습니다. 우리가 알고 싶은 것은

 

Pr(세타|데이터)

 

입니다. 즉 데이터 값을 알았을 경우 세타가 나올 확률입니다. 이게 가능성 함수, 즉 Likelihood function입니다. 이 함수를 최대로 하는 값이 바로 데이터를 통한 세타의 추정값이 됩니다.

 

그러나 위 식은 베이즈 정리를 쓰면

 

Pr(세타|데이터) = K*Pr(데이터|세타)*Pr(세타)

 

가 되거든요. 여기서 K는 그냥 상수입니다. 없어도 별 상관 없습니다. 그러나 이런 개념이 주류 통계학 밑바탕부터 부정하는 것이거든요. 왜냐하면 세타는 모르지만 어떤 값이기 때문에 확률값을 줄 수 없다는 것이죠.

 

그래서 정리하면 가능성 함수는

 

f(세타|x)=f(x|세타)*h(세타)

 

입니다. 그러나 주류 통계학에서는 뒤의 h(세타)를 인정할 수 없기 때문에

 

f(세타|x)=f(x|세타)

 

로 그대로 놓고 쓰고, 이 문제 때문에 확률밀도 함수를 f(x|세타)로 표시하지 않고 두리뭉실

 

f(x, 세타) 또는 f(x; 세타)

 

이런 식으로 용어를 모호하기 씁니다. 그래서 학생들이 가능성 함수도 정확하게 이해를 못합니다.

 

 

 

그래서 앞으로는 확률분포 f(x;세타)를 보면 이건 f(x]세타) 즉 모수 세타가 주어졌을 때 데이터 x가 관찰된 확률로 이해를 하시고

 

가능성 함수는 f(세타|x)로서 데이터 x가 관찰되었을 때 세타일 확률로서 이해를 하시면 됩니다. 또 주류 통계학과에서는 f(x;세타)=f(세타|x)가 됩니다. 즉 확률밀도함수와 가능성 함수는 정확하게 수식이 일치합니다. 그러나 실제 문제를 푸는 경우는 완전히 함수식이 달라집니다. 왜냐하면 확률분포에서는 세타가 값으로 주어지고 x에 대한 함수모양이고 가능성 함수에서는 확률분포에 있는 x에 값이 들어가고 이젠 세타에 대한 함수이기 때문입니다.

 

 

 

통상 이 가능성 함수는 log을 취합니다. 그래서 log 가능성 함수라고 합니다. 아마 우리나라에서는 로그우도함수라고 번역이 되어 있을 겁니다. log을 취하는 경우는 통상 확률분포가 지수를 포함하거나 곱하기 형태가 많아서 그럽니다. 가능성 함수를 최대화 하는 문제랑 로그를 취해서 로그 가능성 함수를 최대화 하는 문제는 일치하는 문제입니다. 로그를 취해서 최대화 하는 점을 찾아도 아무런 문제가 없기 때문입니다. 왜냐면 log는 단조증가 함수이기 때문입니다. 한번 생각해보시죠.

 

 

 

 

문제:

 

 

동전 한번 던지는 실험입니다. 앞면이 나오는 확률이 0.7(즉 세타가 0.7) 경우

 

확률밀도함수 f(x|세타=0.7)

 

를 한번 써 보시고

 

실제 동전을 던지니까 앞면이 나왔습니다. 즉 x=1로 관찰이 되었습니다. 그럼 가능성 함수

 

f(세타|x=1)

 

를 한번 써 보시기 바랍니다. 통계학을 전공하거나 아니면 앞으로 공부를 계속 하실 분이면 이 예를 꼭 한번 해보시기 바랍니다.