통계이론/주류통계

조건부확률3

학위논문통계 2013. 10. 2. 23:32

1. 지난번 조건부 기댓값에 대해서 알아봤는데 생각보다 어려운 이론이 깔려 있지요.

오늘은 조건부 확률이나 조건부 확률변수에 대해 좀 현실적인 이야기를 해보죠.

 

앞서 소개한 바와 같이 제가 있는 라인쪽의 대빵은 Jaynes 교수입니다. 엔트로피의 대가죠. 그러나 저는 사실 엔트로피에 대해 잘 모르고요. 실제로 이 분 글에서 제일 감명 깊은게 바로 확률논리입니다. 지금까지 우리가 알고 있었던 부울 논리가 완전히 잘못되었다는 것이죠. 부울논리가 자체가 잘못된 것이 아니라 현실에서는 전혀 의미가 없다는 것이죠. 실제로 현실에서 적용되는 것은 확률논리라는 것이죠. 부을논리는 확률논리의 극단의 경우입니다.

 

이 사실을 잘 모르면 진중권같이 ‘일반화의 오류’니 하면서 멍청한 소리를 하게 됩니다. 소수라도 사회나 자연에서 의미가 있으면 분명히 지적을 해야죠.

 

 

 

개콘에서 위대한 발견을 많이 한 코너가 있었죠. 지금은 인기가 없어 폐지된 것 같지만.

개콘에서 휴대폰을 많이 사용하면 폭력적으로 변한다는 것을 입증했죠. 어떻게요. 폭력죄로 잡힌 사람을 조사하니까 이중 90%가 전부 휴대폰을 사용한다는 위대한 사실을 발견한 것이죠.

 

뭔가 잘못된 것이죠. 그런데도 사람들이 자주 실수를 한다는 것이죠. A:휴대폰 사용, B: 폭력적 성향이라 할 때 우리가 구해야 할 확률은 Pr(B|A)이지 Pr(A|B)가 아니죠. 즉 휴대폰 사용하는 사람 중 폭력적인 사람일 확률을 구해야지 폭력적인 사람 중에서 휴대폰을 사용하는 사람의 확률을 구하면 안되죠.

 

그런데도 현실에서는 어쩔 수 없이 잘못된 확률을 구할 수 밖에 없는 경우가 있습니다. 의료쪽에서 많이 나오죠. 암이나 에이즈 같은 특정 병에 걸린 사람을 구하기 힘드니까 일반적으로 많이 하는 표본방법으로 하면 이런 병에 걸린 사람들이 표본에 거의 뽑혀지지 않습니다. 따라서 어쩔 수 없이 병원에 있는 병에 걸린 사람들을 대상으로 표본을 뽑습니다.

 

 

이럴 경우 나오는 확률은 예를 들어 암에 걸린 사람 중 담배를 피는 사람, 또는 에이즈 환자는 동성연애자의 확률 같은 것이 나온다는 것이죠. 우리가 진짜 알고 싶은 확률은 담배를 피우는 사람 중에 암에 걸린 확률, 동성연애자 중 에이즈에 걸린 확률인데요.

 

 

 

2. 자, 그러면 여기서 끝일까요? 만약 휴대폰을 사용하는 사람 중 폭력적인 사람의 확률이 0.9라서 휴대폰 사용이 사람이 폭력성향에 뚜렷한 영향을 미친다고 이야기할 수 있을까요?

 

그렇게 이야기를 못합니다. 만약 휴대폰을 사용하지 않은 사람 중 폭력적인 사람이 확률도 0.9라면 어떻게 되죠. 이러면 휴대폰 사용이 폭력성향과 관계가 없다고 이야기 할 건가요?

 

그래서 어떤 영향이 있는지, 아니면 관계가 없는지 분석하려면 휴대폰을 사용하는 경우, 휴대폰을 사용하지 않은 경우 전부 다 따져야 한다는 것이죠. 그래서 휴대폰 사용 여부와 폭력성향이 관계가 없다면, A1을 휴대폰 사용, A2는 휴대폰 안 사용 이라 하면,

 

Pr(B|A1)=Pr(B|A2)

 

이게 성립이 되어야 합니다.

 

여기서 휴대폰 사용하는 사람과 안 사용하는 사람 다 더하면 전체 국민들이 되니까 위의 공식은

 

Pr(B|A1)=Pr(B|A2)=Pr(B)=전체 국민 중 폭력적인 확률

 

이 됩니다. 정보이론 말을 쓰면 휴대폰 사용 여부라는 정보가 들어와도 폭력적인 성향에 대한 확률이 변하지 않으면 이때야 휴대폰 사용 여부와 폭력적인 성향이 서로 관계가 없다, 독립적이다 이런 이야기를 할 수 있다는 것이죠. 이게 사실 독립의 정의입니다.

 

Pr(AB)=Pr(B|A)*Pr(A)=Pr(B)*Pr(A)

 

이렇게 된다는 것이죠. A는 A1이나 A2 모두 성립해야 합니다.

 

여기서 주의해야 할 점은

 

1) 그럼 Pr(폭력적|휴대폰 사용)=Pr(폭력적|휴대폰 안 사용)=0.9 이렇게 높게 나온다면 이런 현상을 어떻게 설명할까요? 이럴 경우 휴대폰 사용 여부와 관계없이 그 사회 전체가 폭력성향이 매우 높은 다른 이유가 있다는 것이죠.

 

2) 실제로 데이터를 구해서 계산하면 정확하게 Pr(B|A1)=Pr(B|A2) 이렇게 나오지 않습니다. Pr(B|A1)과 Pr(B|A2)가 어느 정도 비슷하면 독립적이라 판단하고 차이가 많이 나면 서로 연관성이 있다 이렇게 판단한다는 것이죠. 이 판단 기준이 바로 통계적 검증과정입니다. 우리나라에서는 통상 교차분석을 하여 Preason 카이제곱(chi sauare) 검증을 많이 사용하죠. 그리고 이야기한 바와 같이 이런 교차분석에서는 빈도수는 의미가 없습니다. 확률, 즉 백분율을 보고 판단을 해야 한다는 것이죠.

 

 

2. 조건부 확률이나 조건부 기댓값을 배울 때 대학원 확률과정 책을 보면 골치아픈 이론을 전개합니다. 감이 없으면 뭘 이야기하는지 전혀 알 수 없죠. 조건부 확률은 이론 전개상 골치 아픈 문제가 있습니다. 예를 들어 기초통계학에 나오는 조건부 확률분포를 보면

 

f(x|y)=f(x,y)|f(y)

 

이렇게 정의되어 있습니다. 그런데 y가 연속형일 경우 f(y)의 진짜 의미는 y 값이 나올 확률인데 이게 0이라는 것이죠. 그래서 분모가 0이 되어 골치아파집니다. 그래서 조건부 확률변수나 조건부 확률분포를 이론적으로 정의할 때 마구잡이로 할 수가 없습니다.

 

조건부 없는 기존의 확률변수나 확률분포 이론에서 조건부 확률변수나 조건부 확률분포로 이론을 확장시킬 때 기존의 좁은 대상으로 할 때의 이론과 배치가 되거나 모순이 되면 안되거든요. 대학원 과정에서 나오는 어려운 이야기는 일반 확률변수에서 조건부 확률변수, 확률분포에서 조건부 확률분포로의 확장이론을 설명하고 있는 것입니다.

 

 

3. 최근 문어살인 사건이 무죄로 판결이 나와 좀 논란이 되었죠. 이런 법정에서 확률논리가 어떻게 적용될까요? A를 피고가 유죄아다라는 주장, 진술이라고 하죠, 그럼 검사는 B1, B2, B3... 등 피고가 유죄하는 증거, 또는 정보를 내세우죠, 또 변호사는 C1, C2, C3... 등 피고가 무죄하는 증거, 또는 정보를 내세우죠.

 

그래서 검사의 경우

 

Pr(A)=피고가 유죄이다 < Pr(A|Bi)=Bi 정보하에서 피고는 유죄이다.

 

가 되게끔 하는 증거, 정보 Bi를 내세우는 것이고,

 

변호사는

 

Pr(A) > Pr(A|Ci)

 

가 되게끔 하는 증거, 정보 Ci를 내세운다는 것이죠.

 

그럼 실제로 판사는 어떻게 판단해야 할까요?

 

우리가 여기서 주의해야 할 점은 조건부 확률에서 조건부로 들어오는 정보 Bi나 Ci가 사실이라는 것입니다. 그러나 현실에서는 이게 사실이라 할 수 없거든요. 즉 검사나 변호사가 내세우는 증거나 정보가 거짓일 가능성이 많다는 것이죠.

 

그럼 이 경우 우리는 단순히 Pr(A|Bi)나 Pr(A|Ci)를 생각하면 안된다는 것이죠. Bi나 Ci가 거짓일 경우도 생각을 해야 한다는 것이죠. 이럴 경우를 생각하면 우리는

 

Pr(A, Bi)나 Pr(A, Ci)와 같은 결합확률을 생각해야 한다는 것이죠.

 

그래서 일반적으로 이야기해서 어떤 정보 B가 어떤 주장 A를 지지한다고 하면 이런 경우가 됩니다.

 

Pr(A, B) > Pr(A)

 

그럼 Pr(A, B)=Pr(A|B)*Pr(B) > Pr(A) 이렇게 되고 새 증거나 정보 B가 사실이면 즉 Pr(B)=1 이면 이젠 Pr(A|B) > Pr(A)가 됩니다.

 

 

 

==> 위 빨간 부분은 틀렸습니다.

 

제가 생각해도 참 한심하네요.

 

Pr(A, B)는 항상 Pr(A)보다 작습니다(같을수도 있지만). 확률공식을 써서 증명해도 되지만 생각하면 당연한 것입니다. 예를 들어 A와 B라는 문제가 있는데 어떤 사람이 A와 B를 다 맞출 확률은 A만 맞출 확률보다 당연히 낮겠죠.

 

 

일단 판사의 입장에서는 검사나 변호사가 제시하는 주장이 사실인지 먼저 판단을 할 겁니다. 이미 어느 정도 사실이라고 인정할 만한 내용들이 사전에 많이 있거든요. 현장 사진이라든지.... 이런 사전에 사실이라고 판단되는 정보를 통째로 I라고 하죠. 그럼 새로 제시된 B가 I하고 일치가 되는지 판단을 해야 한다는 것이죠.

 

즉 Pr(B|I)가 1에 가까운지, 또는 Pr(B, I)가 1에 가까운지를 생각한다는 것이죠. 이렇지 않으면 주장하는 내용들이 일관성이 없다고 판단하고, 재판에서 지는 것이죠.

 

만약 애매모호 하다고 생각하면 어떻게 될까요?

 

Pr(A)=Pr(A, B) + Pr(A, ~B)

=Pr(A|B)*Pr(B) +Pr(A|~B)*Pr(~B)

 

이건 일종의 평균값인데 Pr(B)와 Pr(~B)가 일종의 가중치가 됩니다. 즉 Pr(A)는 Pr(A|B)와 Pr(A|~B)의 내분점이 됩니다. 만약 B가 검사가 제시한 주장이라면

 

Pr(A|B)는 1에 가깝게 되겠고(B가 사실일 경우), Pr(A|~B)는 0에 가깝게 되겠죠(B가 거짓일 경우). 그럼 Pr(A), 즉 피고가 유죄일 확률은 0과 1 사이에서 Pr(B)와 Pr(~B)를 가중치로 가진 내분점이 된다는 것이죠.

 

이와 같이 법정에서 판결도 확률적인 판결에 불과합니다. 법정에서 판결을 무조건 옳다고 우기는 것은 멍청한 짓이죠. 더구나 우리나라에서는 정치적 판결이 많고, 또한 소위 말하는 유전무죄, 무전유죄, 또는 전관예우 등 억울하게 당하는 판결이 많습니다. 석궁사건도 그렇고, 곽노현 교육감 판결도 이런 전형적인 썩어빠진 판결입니다.

 

왜 이런 판결이 많을까요? 이 판사들이 원래 수구골통이라서요. 아닙니다. 이게 다 나중에 이 바닥에서 다 돈벌기 위해서 이죠. 사회가 수구골통이고, 법조계가 썩어 있으니까 이런 판결이 나중에 자신이 변호사가 되었을 경우 돈 벌기가 좋다는 것이죠.

 

흔히 Pr(A, B)=0 이면 기초통계학에서 배반사건이라 합니다. 즉 A와 B라는 사건이 동시에 일어나지 않는다는 것이죠. 동시적이라는 것이 꼬 시간상 같은 시간이 일어난다는 것은 아닙니다. 논리적으로 동시에 일어나지 않는다는 것이죠. 만약 오늘 저녁을 한국에서 식사하고 내일 아침은 뉴욕에서 식사하는 것은 논리적으로 일어날 수 없죠.l

 

 

그럼 Pr(A, B)는 현실에서 어떤 의미가 있을까요? 두 개의 주장이 서로 모순되지 않고 일관성이 있어야 합니다.

 

예를 하나 들어볼까요.

 

얼마 전에 두 탈북자가 북한 인권에 대해 고발을 했습니다. 한 남자는 부모가 탈북을 모의하다가 들켜 끔찍한 수용소 생활을 했다고 합니다. 인간 이하의 동물적인 삶, 그리고 걸핏하면 처형하는, 그리고 자기가 부모를 고발해 부모가 처형당했다고 이야기를 했습니다.

 

한 여자는 북한을 세 번 밀입국에서 네번인가 다시 탈북을 했다고 합니다. 그럼 이 두 사람의 주장, 진술이 맞을 확률

 

Pr(A,B)가 얼마나 될까요?

 

그냥 멍청하게 살면 평생 속고 삽니다. 참 제가 초등이나 중등때 반공윤리에서 배운 오호담당제, 자기 부모를 고발하는 이런 이야기를 2010년대에 다시 듣게 되네요. 북한은 개막장 사회도 아니고 또 사회주의가 철저한 그런 사회도 아니고, 남한 못지 않게, 오히려 더 심하게 유교적 관습이 남아 있는 사회라는 것은 이젠 많이 알려져 있잖아요.

 

 

 

다음에는 sigma-field, sigma-algebra 에 대해 알아보고 조건부 기댓값에 어떻게 적용되는지 간단히 알아보겠습니다.

 

 

 

 

 

'통계이론 > 주류통계' 카테고리의 다른 글

가능성함수(우도함수)와 MLE(최대가능성추정량)  (0) 2013.12.28
조건부확룰4  (0) 2013.10.02
Rao-Balckewll정리, 조건부 기대값  (0) 2013.08.05
불변  (0) 2013.07.24
일치통계량와 불편추정량  (0) 2013.07.19