기타통계이야기/베이지안 생각하기

베이지안 생각하기

학위논문통계 2013. 4. 5. 00:17

 

1. 베이지안 공식의 의미

 

베이지안에 대해서 조금 더 이야기해볼까요? 베이지안 정리 공식입니다.

 

 

f(세타|x)=f(x|세타)*f(세타)

 

 

 

여기서 f는 확률분포를 전반적으로 가리키는 일반적인 표시로 보시면 됩니다. f(세타)를 사전(prior)확률이라고 하고 f(세타|x)를 사후(posterior)확률이라고 합니다.

 

그럼 현실에서 왜 이 베이지안이 중요한가? 현실에서 우리가 처하는 문제는 전부 이 베이지지안 인과관계를 이야기하기 때문입니다.

 

예를 들어 박시후 사건을 한번 볼까요? 양쪽에서 자기 주장들을 하죠. 그게 우리들에게는 데이터 x입니다. 물론 이 경우는 x가 틀린 가능성도 농후하지만요. 하여간 양쪽에서 오는 데이터 x를 가지고 세타

 

 

 

즉 세타= 1) 성폭행을 했다.

            2) 서로 원해서 했다

 

 

 

이 두 가지 중 어느 쪽이 가능성이 높을까 하는 문제입니다. 즉 주어진 데이터 x를 가지고 f(세타|x)가 최대화되는 세타를 취한다는 것이죠.

 

 

법정에서 판사가 처해 있는 상황도 마찬가지고요. 검사나 변호사 양쪽에서 오는 정보, 즉 데이터 x를 가지고 피고가 죄가 있는지 없는지 판단을 해야 하는 것이거든요.

 

또한 의사도 몸에 나타나는 여러 징후를 보고 이 사람의 병이 뭔지 판단해야 한다는 것이죠.

 

물론 이 판단에는 확률적인 요소만 있는 것이 아니죠. 어떤 판단에는 잘못된 판단을 할 가능성이 있고, 거기에 따른 비용도 고려해야 한다는 것이죠.

 

 

이렇게 중요한데 왜 우리는 이 베이지안을 잘 모르는 것일까요?

 

흔히 원인과 결과라는 인과관계를 이야기를 할 때 시간상의 개념으로 파악합니다. 즉 원인이 시간상 앞서 있고, 결과는 시간상 후행변수라는 것이죠. 이걸 물리적 인과관계라 하죠. 이 인과관계가 우리의 머릿속에 꽉 박혀 있기 때문에 타임머신 같은 것도 우리가 받아드리지 못하고 있죠. 물리적으로 과거로 돌아갈 수 있다고 해도 돌아가서 사건을 바꿔 버리면 이젠 지금의 현실과 다른 궤적으로 가버린다는 것이죠. 즉 앞의 인과관계의 법칙을 깨기 때문에 잘 받아드릴 수 없다는 것이죠. 현대 물리학 보면 완전 소설같죠.

 

 

그러나 우리가 현실에서 처해 있는 문제는 현재에서 과거로 추적하는 관계입니다. 시간상 거꾸로 가는 인과관계라는 것이죠. 이 관계를 논리적 인과관계라 하죠. 이 현재에서 과거로 추적하는 법칙으로서 현재까지 알려진 법칙은 이 베이지안 정리밖에 없습니다. 뭐 100% 확신은 못해도요. 이 위대한 법칙이 기껏 고등학교 시험문제용으로 밖에 인식되고 있지 않는게 현실이죠.

 

 

 

 

2. 부울 논리의 문제

 

 

그럼 베이지안의 현실적인 문제는 뭘 까요? 바로 사전확률이라는 f(세타)에 있습니다. 이게 기존의 이론을 부정하는 핵심이기도 하지만 가장 불신을 받는 이유이기도 합니다. 왜냐하면 f(세타)에 어떻게 해야 한다는 과학적인 방법이 없습니다. 사람마다 다 다르기 때문입니다.

 

예를 들어 박시후 사건의 경우 박시후나 두사람간의 관계, 또는 연예계 속사정를 잘 모르는 사람은 이 f(세타)를 어떻게 줘야 할지 잘 모른다는 것이죠. 그러나 연예계 속사정을 잘 아는 사람은 우리와 조금 다르게 f(세타)를 세울 것이고, 평소 박시후를 잘아는 사람은 f(세타)가 매우 명확할 수 있을 겁니다. 즉 성폭행했다든지, 아니면 서로 좋아서 했다든지 어느 한쪽에 확률 1에 가깝게 줄 것입니다.

 

 

이렇게 사람마다 다 다르게 해법이 나오면 이건 통상 과학으로 취급하지를 않는다는 것이죠. 왜냐하면 우리는 항상 맞고, 틀리고 이 두 가지 경우 밖에 없는 부울 논리에 완전히 젖혀 있기 때문이죠. 즉 이 부울 논리에서는 제기된 방법은 맞거나 아니면 틀려야 합니다.

 

이런 부울 논리학에서 나온 가장 형편없는 주장이 일반화의 오류입니다. 우리는 확률적인 세상에서 살고 있고 100% 맞는 주장은 없습니다. 일반 수학에서는 어떤 주장이 틀렸다고 증명하려면 반례를 하나 들면 끝입니다. 실제로 그렇게 증명합니다.

 

그러나 현실에서는 전혀 그렇지 않다는 것이죠. 반례를 들려면 그 반례에 해당하는 사람이나 사건이 꽤 많다든가, 아니면 소수의 사람이나 사건이라도 그게 상당히 중요하고, 의미있다는 것을 이야기해야 합니다. 그래야 토론이 계속 진행되는 것이거든요. 그냥 반례하나 들어놓고 일반화의 오류라고 하고 마치 논쟁에서 자기가 이긴 듯 그러면 안되죠. 

 

 

 

 

3. Laplace의 rule of succession

 

하여간 이런 문제 때문에 이 사전확률을 좀 더 과학적으로, 웃기는 이야기지만 모든 사람이 답이라고 할 수 있는 방법을 제시합니다.

 

베이지안 공식을 보면

 

 

f(세타|x)=f(세타)*f(x|세타)

 

이 공식을 이렇게 해석합니다.

 

왼쪽에 있는 데이터를 관찰한 후의 사후확률은 오른쪽의 사전확률에서 데이터가 들어옴에 따라 update하는 과정으로 파악한다는 것이죠.

 

따라서 사후확률의 모양과 사전확률이 모양은 수학적으로 같아야 된다는 것이죠. 이런 생각에서 사전확률을 답처럼 제시하는 것이 짝 사전확률(conjugate prior)입니다.

 

여러 가지 분포의 경우 이 짝 사전확률이 어떻게 되는지는 통계학과 3학년 수리통계나 베이지안 책에 나와 있습니다.

 

실제로 이렇게 update하는 과정을 한번 볼까요? 동전이 앞면이 나올 확률을 알고 싶다는 것이죠. 처음에는 앞면이나 뒷면이 어떻게 나올지 모르니까 각각 0.5의 확률을 주죠. 그래서 이것을 모사하기 위해 항아리에 빨간공과 파란공 하나씩을 넣습니다. 즉 빨간공이 나오는 것이 동전의 앞면이 나오는 것이라 생각하시면 됩니다.

 

처음에 빨간공이 나왔다고 하죠. 그러면 항아리에 빨간공을 하나 더 넣습니다. 그럼 빨간공 2개와 파란공 1개가 되겠죠. 그럼 다음에 빨간공이 나올 확률은 2/3이 됩니다.

 

그 다음 이 세 개가 들어 있는 항아리에서 파란 공이 나왔다고 하죠. 그럼 파란 공 하나를 더 넣습니다. 그럼 빨간공 2개, 파란 공 2개가 되죠. 그러면 다음에 빨간공이 나올 확률은 2/4가 됩니다.

 

이런 식으로 계속하면 n번 시행해서 빨간공이 r 번 나왔다면 이겐 다음에 빨간 공이 나올 확률은

 

(r+1)/(n+2)

 

가 됩니다. 이게 Laplace의 rule of succession의 공식입니다.

 

 

 

 

4. 결국 Prior가 중요

 

우리가 어떤 사건이 터지면 두 가지 방향으로 안 좋은 진행으로 나갈 수 있습니다.

 

하나는 어떤 사건이 터졌다고 오두방정을 떨다가 시간이 좀 지나니까 그런 일이 있었는지 모를 정도로 조용하게 되는 경우죠. 이땐 멀쑥해지는 것이죠. 예를 들어 영화개방 같은 것을 들 수가 있겠네요. 영화시장 개방해도 국산영화가 대박 터지는 경우가 많죠. 모르죠, 속으로 얼마나 문제가 많은지는 모르겠지만 하여간 표면적으로는 그렇다는 것이죠.

 

또 하나는 사건이 터졌는데 그냥 단순한 개별적인 사건, 우연한 사건, 개인적인 사건으로 치부하는 것이죠. 그런데 이게 불행한 징후가 될 수 있다는 것이죠. 즉 내부의 근본적인 변화, 구조적인 변화를 보여주는 징후인데도 무심하게 지내다가 나중에 대형사건으로 터지는 것이죠.

 

그럼 이런 잘못된 판단을 어떻게 막을 건가? 답이 없죠.

 

그러나 베이지안 정리는 이렇게 이야기 하고 있습니다. f(세타)가 중요하다고요. 즉 이 f(세타)가 이 두가지 오류를 막아주는, 균형을 잡아주는 역학을 하고 있다는 것이죠. 그런 이 f(세타)에 대해서 누가 가장 잘 아는가? 바로 그 분야 전문가입니다. 이론뿐만 아니라 현장에서 일어나고 있는 일에 대해 잘 알고 있는 사람이죠. 그래서 각 분야에 전문가가 필요한 것이죠. 이 사람이 가지고 있는 지식이 확률로 구현된 것이 바로 prior라는 것이죠.

 

그러나 우리나라의 경우는 하고 되물으면 참 암담하죠. 요새 해앙수산부 장관 청문회 이야기 들으셨죠. 청문회 그 자체보다 이 사람이 그 동안 수 많은 중요한 직책을 어떻게 맡았는지 이게 더 궁금하고 문제라는 것이죠.