기타통계이야기/베이지안 생각하기

주류통계학과 베이지안, 자꾸 산으로 가는구나....

학위논문통계 2013. 4. 10. 23:30

 

1.

 

앞서 이야기한 바대로 주류통계학에서 모수에 대한 확률의 개념을 거부하기 때문에 가능성(우도)함수 설명하는데 온갖 어려움이 생깁니다. 그래서 주절주절 이상한 이야기들을 많이 하고요.

 

아마 이걸 공부하신분도 가능성함수를 이해하려고 머리 좀 써 쓸 겁니다. 저도 학부 때 당연히 그랬죠. 지금 생각은 주류 통계학이 그냥 틀린 거죠. 그러나 틀렸다고 이게 쓸모없는 것은 아니죠. 근사치로 유용하면 쓰는 것이죠. 근사치로 어느 정도 유용하니까 지금까지 주류통계학이 위치를 지키고 있는 것이죠.

 

하여간 이런 주류통계학의 생각 때문에 생긴 코메디가 한국 선거 여론조사이죠. 분명이 사전 정보가 있는데 이걸 고려하지 않고 그냥 데이터만 갖고 해석을 하니 여론조사가 맞다 안맞다 이런 이야기를 하고 있는 것이죠. 그래서 하도 말이 많으니까 요새는 선거분석가들이 단순히 여론조사에서 나온 지지도만 이야기 하지 않고 첨가적으로 자기의 주관적인 수정들을 첨부해서 이야기 하죠. 바로 사전확률을 적용시킨 것입니다.

 

실제 우리 현실에서는 전부 이렇게 하고 있습니다.

 

 

 

 

 

2. 주류 통계학

 

 

주류통계학이라고 이야기했는데 과연 주류통계학이 뭔 지 감이 안오시죠. 크게 두 개 방향이 있습니다.

 

주류 중의 주류라고 볼 수 있는 쪽이 추정에서 최소불편추정량을 찾고 가설검증에서 가장 power가 좋은 검증을 찾는 쪽입니다. UMVEU나 UMP이라고 합니다. 그러니 이쪽은 추정이나 가설검증에서 어떤 기준을 정합니다. 이 기준을 만족시켜 주는 추정량이나 검증방법을 찾는 것이죠. 그래서 겉으로 보기에는 멋있습니다. 그러나 철학이나 관점을 떠나서 이게 실용성이 전혀 없다는 것입니다. 실제 모형으로 가면 이 쪽에서 주장하는 것을 찾을 수가 없습니다. 가장 많이, 그리고 흔히 쓰는 회귀분석에서도 이게 통하지 않아 BLUE의 성격을 가지고 있다 이런 이야기를 하고 있죠.

 

그래도 좀 감이 안 오죠. 예를 들어 학생들 점수의 평균이나 아니면 우리나라 성인의 평균키를 추정할 때 왜 표본 평균 (X1+X2+...+Xn)/n 을 사용하죠. 그냥 당연한 것 아니냐 하면서 무의식적으로 사용했지만 그냥 사용할 수 없죠. 다 이유가 있다는 것이죠. 이쪽 사람들이 주장한 기준을 만족시키기 때문에 사용하고 있는 것이죠.

 

그럼 한국 성인의 키의 퍼짐인 분산의 경우는 뭘 사용할까요? 아마 여러분들은 고등학교때

 

 

 

 

아무 이렇게 배웠을 겁니다.

 

그러나 통계학과에서는 이걸 사용하지 않고

 

 

 

 

 

이걸 사용합니다. 왜냐하면 이게 이쪽 사람이 말하는 최소한의 기준 불편추정량(unbiased estimator) 기준을 만족하기 때문입니다. 위의 고등학교때 배운 표본분산은 이 불편추정량의 성격을 만족시키지 못하기 때문에 탈락입니다.

 

하여간 기본적인 추정이랑 가설검증의 개념을 알아두셔야 하지만 이쪽 사람들 주장에 대해서는 깊게 들어갈 필요가 없습니다. 그냥 시간 낭비입니다.

 

 

 

 

3. 주류 중 약간 비주류

 

두 번째가 사실상 주류 통계학에서 실제로 사용하는 방법입니다. 추정에서는 가능성(함수)를 최대화하고 가설 검증에서는 가설별 가능성 함수를 비교해서 추정하는 방법이죠. mle, LRT라고 부르죠. 이 방향이 그래도 직관적이고 거의 대부분 수치해석을 도입해서라도 대부분 구해낼 수 있습니다. 여러분이 알고 있는 표본 분산

 

 

 

 

 

이것이 mle로 구한 분산의 추정치입니다.

 

 

그래서 사실상 구할 수 있다는 장점이 있기도 하고 매우 좋은 성질을 가지고 있습니다. 불변법칙이라든지 대수의 성질 같은 것을 가지고 있습니다.

 

그래서 앞으로 통계 이론을 좀 알아야 하는 분들은 이쪽은 공부를 좀 하셔야 합니다. 별 어려운 것도 없습니다. 몇 개 핵심 사항만 알고 있으면 됩니다.

 

하여간 이 가능성 함수가 많이 헷갈려서 쓰고 있는데 정리하면 주로 세 개 방향으로 사용됩니다.

 

u를 모수로 할 게요.

 

1) 확률밀도 함수: f(x, u), u가 주어졌을 경우 x가 관찰된 확률, 정확하게는 x+dx가 관찰될 확률입니다.

 

2. 가능성(우도) 함수; f(x|u)=f(x,u), x가 관찰되었을 경우 u가 관찰될 확률.

 

3. 확률변수: f(X,u), 여기서 X는 확률변수이고 확률밀도함수을 그냥 단순한 X의 함수로 보면 f(X,u)는 새로운 확률변수에 해당합니다.

 

이렇게 다양하계 해석되니까 책을 보시다가 문맥을 잘 파악하셔야 합니다.

 

이렇게 주류 통계학의 큰 두 개의 방향이 있습니다.

 

 

 

 

 

4. 애매모호한 사전확률

 

그래서 우리가 데이터 x를 관찰한 다음 일단 모수를 추정해야 하는데 이때 베이지안의 사후확률 개념을 사용해야 한다고 했죠. 이건 철학이나 관점의 차원이 아니고 그냥 객관적 사실입니다.

 

그래서

 

f(u|x)=f(x|u)*f(u)

 

이게 맞는데 주류쪽에서는

 

f(u|x)=f(x|u)

 

이렇게 놓고 이걸 가능성(우도) 함수라 하고 사용하고 있다는 것이죠. 그럼 베이지안쪽의 비판에 대해서 어떻게 자신들을 합리화 할까요?

 

뒤의 f(u)를 그냥 평평하게 놓으면 된다고 이야기 합니다. 예를 들어 사람 키에 추정한다고 하면 사람 키가 넉넉하게 잡아 0보다는 크고 3m보다는 작다는 것은 사전 정보로 알고 있죠.

 

그럼

 

f(u)=1/300  if 0<u<300

       0       if o.w.

 

이렇게 놓는다는 것이죠. 그럼 0< u< 300 사이에서는 f(u|x)=f(x|u) 가 된다는 것이죠. 상수는 최대화나 최소화에는 아무런 의미가 없죠. 그래서 문제가 없다는 입장이죠.

 

 

 

 

 

4. 무릎팍 도사처럼 산으로 올라가는 구나...

 

그러나 과연 우리가 정보를 잘 모르면, 애매모호하면, 이렇게 평평하게 사전확률을 주면 되는 것일까?

 

여러분이 이차원 공간을 그림으로 그릴 경우 흔히 수직, 수평 2 개의 축을 그리고 x, y 하면서 좌표축에 이름을 줍니다.

 

그러나 누가 이 좌표축 그림에 x, y라고 쓰지 않고 r과 세타라고 썼다는 것이죠.

그럼 이걸 어떻게 해석할까요?

 

대학교에서 학부 1학년에서 calculus, 미적분학을 배우지 않는 중고등학생이나 아니면 문과계열, 또는 우주에서 날라 온 외계인들은 좀 이상하게 여기겠지만 이걸 마치 흔히 사용하는 x, y처럼 인식할 겁니다. 그러나 학부에서 해석학을 공부한 학생은 r을 중심에서 거리, 세타를 각도로 해석할 것입니다. 즉 원과 연결해서 생각을 한다는 것이죠. 원좌표라고 하나요? 뭐라 이야기 하는지 모르겠네요.

 

 

그러나 (r, 세타) 좌표와 (x, y) 좌표가 과연 같은 것일까요?

 

 

dx*dy = dr*d세타

 

 

이렇게 되는 것일까요?

 

흔히 모수공간(parameter space)이라는 것은 모수들의 집합 공간입니다. 예를 들면 정규분포의 경우

 

H = {(u, 시그마) | u는 -무한대에서 +무한대, 시그마는 양수}그래서 이차원 공간에서 위쪽 부분만 해당하겠죠.

 

그럼 이 경우도

 

du * d시그마 = dx* dy

 

이렇게 되는 것일까요?

 

학생들 수학 점수에 대해서 이야기를 해보죠. 강북에서 남학생과 여학생의 평균 수학 점수가 70점, 60점으로 10점 차이가 났습니다. 그래서 그 차이가 10점이죠. 그러나 이 경우 시그마는 20이라고 하죠. 상당히 퍼짐이 심하죠.

 

 

그러나 강남의 경우 똑같은 평균 점수 70점, 60점이라고 해도 시그마가 5라고 하죠. 이 경우 퍼짐이 상대적으로 많이 작다고 볼 수 있죠.

 

 

그러면 남학생과 여학생의 점수 차이가 둘 다 똑같이 10점 차이라고 이야기 할 수 있을까요? 강북의 경우는 남학생과 여학생의 수학 점수 차이가 별로 없다고 보고, 강남의 경우 남학생과 여학생의 점수 차이가 상당히 심하게 난다는 이야기를 한다는 것이죠. 즉 유클리디안 관점에서 점수 차이는 같지만 통계학적인 점수 차이는 완전히 다르다는 것이죠.

 

(이건 이렇게 해석할 수 있습니다. 시그마가 적은 경우 똑같은 점수 차이라도 등수에서 큰 차이가 납니다. 그러나 시그마가 큰 경우 똑같은 점수 차이라도 등수 차이는 그리 크게 나지 않습니다.)

 

 

 

사실 t 검증 할 때 기본적인 수식이

 

(남학생 평균 점수-여학생 평균 점수) / 시그마 개념

 

즉, 분모에 시그마에 해당하는 것을 집어 넣어 시그마가 클수록 분자의 점수 차이를 실제로는 적게 만든다는 것이죠.

 

 

과연 이 현상이 뭘 이야기 하는 것일까요? 우리가 그림으로 그릴 수는 없지만 이런 이야기입니다. 정규분표의 모수 공간 H={u. 시그마}}는 시그마가 커질수록 똑 같은 평균 차이지만 점점 그 폭이 수축하는 현상을 보인다는 것이죠. 점점 수축되어 마치 폭 파인 공간 모양비슷하게 된다는 것이죠.

 

물리학을 공부하신 분이나 아니면 물리학에 관심이 많은 분들은 어... 어디서 많이 본 공간인데 이러시겠죠. 예 바로 아이쉬타인이 이야기한 공간입니다.

 

여러분들이 제일 많이 쓰는, 가장 잘 아는 이 정규분포의 공간이 바로 아인쉬타인이 이야기한 휘어진 공간입니다. 그런데 이런 사실을 잘 모르고 있죠. 왜 그렇죠.

 

 

바로 우리가 숫자를 부여한 모수공간 (뮤, 시그마)를 실체로 인식하고 있어서 그런 것입니다. 앞에서 확률분포와 가능성 함수에서 확률메저 이야기를 했죠. 이 정규분포 확률메저의 집합이 실체입니다. (뮤, 시그마)가 실체가 아니고요. 뮤와 시그마는 그때 이야기 한 것처럼 가게에서 옷에 가격표나 재고관리시 붙이는 딱지에 불과하다는 것이죠.

 

실체가 그런데도 이 뮤와 시그마를 마치 우리가 잘 아는 유클리디안처럼 생각하면 안되겠죠.

 

그래서 모수에 대해 잘 모른다고 해도 단순히 사전 확률을 평평하게 주며는 여전히 불충분하다는 것이죠. 뭔가 빠졌다는 것이죠. 이 빠진게 바로 모수 공간의 volume element입니다. 점점 산으로 올라가는 느낌이죠.

 

그런데 남학생과 여학생의 점수 차이가 있는지 알기 위해 t 검증하는데 아인쉬탸인의 휘어진 공간 이야기까지 해야 합니까?

 

 

 

무슨 무릎팍 도사도 아니고...

 

 

 

 

 

5. 문제

 

최근 북한 사태에 대해 베이지안을 적용할 수 있을까요?

 

곽노현 사건에 대해서는요?

 

옛날 월남참전 군인들의 고엽제 사건은요(이건 옛날에 얘들에게 시험문제로 낸 것 같은데요), 최근 삼성의 백혈병 사건은요?

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

'기타통계이야기 > 베이지안 생각하기' 카테고리의 다른 글

베이지안 생각하기  (0) 2013.04.05