기타통계이야기/카드 뽑을 확률

카드뽑을 확률, 엔트로피

학위논문통계 2013. 3. 17. 14:43

 

다음 두가지 문제를 생각해보죠.

 

카드 52장(삽13, 하13, 다13, 클13)을 책상위에 가지런이 쌓아 놓고 문제를 냅니다.

 

1) 위에서 세번째 카드를 뽑았을 때 하트가 나올 확률은?

 

2) 위에서 20번째 카드를 뽑았을 때 하트가 나올 확률은?

 

아마 꼭 풀어야 하는 수험생이라면 첫 번째 문제는 위에서 첫 번째 카드, 위에서 두 번째 카드에서 카드 나오는 모양에 따라 일일이 경우의 수를 생각해서 풀어 낼 겁니다.

 

그러나 두 번째 문제는 아무리 중요한 시험이라도 포기할 겁니다. 그렇게 계산하다가는 죽을 때까지 못 풀 수가 있습니다. 혹 풀었는데 계산 실수로 틀릴 수도 있고요. 그럼 포기하거나 아니면 아주 독특한 아이디어를 생각하려고 머리를 돌릴 것입니다.

 

과연 2)번 문제가 그렇게 어려운 문제인가?

 

2)번 문제를 다음과 같이 생각하죠.

 

52장의 카드를 위 문제처럼 세우지 않고 옆으로 길게 펼치는 것이죠. 그럼 위의 문제는 왼쪽에서 20번째 있는 카드를 뽑았을 때 하트가 나올 확률의 문제와 같습니다. 이 경우는 아마 초등학생도 풀 수 있을 겁니다.

 

 

그럼 우리의 생각이 왜 이렇게 달라질까요?

 

앞의 문제는 카드를 세웠습니다. 따라서 우리의 머리 속에 순위, 순서의 개념이 들어 있습니다. 뒤의 문제는 옆으로 세워기 때문에 평등, 무차별의 개념이 있습니다. 그래서 뒤의 문제는 첫 번째 카드가 하트가 나올 확률이나, 20번째 카드가 하트일 확률이나, 아니면 40번째 카드가 하트일 확률이나 전부 다 1/4입니다.

 

데이터상에 명목형 변수는 숫자로 되어 있지만 사실상 순서나 순위의 개념이 없는 것이랑 마찬가지죠.

 

그럼 옆으로 높았을 때는 왜 사람들이 평등, 무차별하다고 생각할까요. 책상을 구부려서 원탁처럼 만들면 이젠 카드도 둥그렇게 깔려져 있죠. 그럼 원탁을 회전해도 계속 똑같은 모양입니다. 어는 것이 첫째고, 둘째고 구별이 없다는 것이죠.

 

이런 것을 불변의 법칙, 또는 대칭의 원리라고 합니다.

 

그렇다고 해서 꼭 하트가 나올 확룰이 1/4이라는 이야기는 아니잖아요? 하는 의문이 생길 수 있습니다.

 

수학교과서에는 이런 식으로 정의되어 있죠. 52개 카드에서 수 많은 카드를 뽑아봅니다. 천번, 만번, 십만번 이런 식으로요. 거기서 나온 하트 카드의 비율을 계산한다는 것이죠.

 

즉 하트 나오는 횟수/1000, 하트 나오는 횟수/10000, 하트 나오는 횟수/100000, 하트 나오는 횟수/1000000 이렇게 진행하면 이게 1/4로 수렴한다는 것이고, 그래서 하트가 나올 확률은 1/4이라고 하는 것이죠.

 

과연 그럴까요? 주어진 문제에서 네 개의 카드 모양에 대해 13장 있다는 정보외에는 어떠한 정보도 없습니다. 그럼 우리가 특별하게 특정 카드를 선호할 이유는 없다는 것이죠. 즉, 카드 선호에서 무차별적이야 한다는 것입니다. 그럴 경우 우리가 각 카드에 확률을 배분할 방법은 동등하게 배분하는 방법밖에 없습니다. 그래서 하트 뿐 아니라 다른 카드도 나올 확률이 1/4이 되는 것이죠.

 

당연한 이야기가 아니냐고요? 이게 엔트로피를 최대화 하는 법칙입니다. 주어진 어떤 문제에 관련된 정보나 지식하에서 가능하면 분포의 퍼짐을 최대화, 즉 엔트로피를 최대화, ignorance를 최대화해야 한다는 법칙입니다.