기타통계이야기/성적취향과 인권감수성의 관계 기타

성적취향과 인권감수성, 해가 뜰 확률...

학위논문통계 2013. 3. 30. 02:13

 

1. 성취향과 인권감수성의 관계

 

최근 모 인권운동교수 사건으로 좀 시끄러웠죠. 그 사건에 대해 이야기를 하려고 하는 것이 아니고요. 거기에 관련해서 통계문제를 좀 생각해보자는 것이죠.

 

사람의 성적 취향을 SM, 비SM 등 이진 변수로 취급하고요, 인권감수성도 인권적, 비인권적 이진변수로 취급하기로 하죠.

 

그래서 우리 관심은 사람의 성적 취향과 인권감수성이 서로 관계가 있는가 없는가 하는 문제입니다. 즉 독립이나 아니냐 하는 문제죠.

 

그럼 독립의 정의에서

 

Pr(A|B)=Pr(A)

 

입니다.

 

B를 인권적, 비인권적을 나타내고 A를 SM, 비SM이라고 하죠. 물론 우리는 A와 B의 확률분포에 대해서 모릅니다. 돈이 많으면 설문조사 같은 것을 해볼수는 있겠죠. 그러나 통상 일반인은 자신이 경험한 것으로 판단한다는 것이죠.

 

B가 만약 인권적인 경우라 생각해보죠. 그래서 평상시 인권적이라 하는 사람들을 만나서 성적취향에 대해 느낀 것으로 판단한다는 것이죠.

 

여러 사람 만나보니까 인권적인 사람에게도 SM도 있고, 비SM도 있고 두루뭉실하다는 것이죠. 그러면 사람들은 인권감수성과 SM/비SM 취향과는 관계가 없다고 판단한다는 것이죠.

 

수식으로 쓰면

 

Pr(A=SM|인권적) = Pr(A=비SM|인권적)=0.5

 

이면 인권감수성과 SM취향과는 관계가 없다고 판단한다는 것이죠.

 

그러면 이 판단은 위의 독립의 정의에 어긋나는 것이죠.

 

만약 Pr(A=SM), 즉 사람들의 SM 취향이 확률이 0.2라면

 

Pr(A=SM|인권적) = Pr(A=SM|비인권적) = 0.2

 

가 되어야 한다는 것이죠. 사람들이 0.2라고 판단하지 않고 0.5라고 놓고 판단하는 이유는 이게 엔트로피가 가장 높은 상태, 가장 애매모호한 상태이기 때문에 자신이 이해관계가 크게 달리지 않는 문제는 이렇게 0.5로 놓는 경향이 있습니다.

 

그러나 정치적인 사건에 따른 정파적 입장이나 연예인 사건이나 주변의 사람들의 사생활 이런 문제에서는 다양한 가능성을 열어 놓기보다는 반대로 확신을 하는 경향이 있죠.

 

하여간 다시 원 문제로 돌아가서 우리가 이런 성적 취향이나 인권감수성을 이렇게 이진변수로 취급할 성질인지 의문스럽지만 가장 큰 문제는 SM 취향에 대해서는 사람들이 자기 본심을 드러내지를 않는다는 것이죠. 그래서 눈으로 느끼는 확률값하고 실제 확률값하고는 차이가 너무 많이 난다는 것이죠. 즉 과소추정하는 경향이 있다는 것이죠.

 

이런 문제는 선거 끝나고 여론 조사에서도 많이 나옵니다. 왜 이 후보를 찍었는지, 이 정당을 찍었는지 물어보면 사람들이 본심대로 응답을 안한다는 것이죠. 자신의 선택에 대한 면피를 줄 수 있는 이유, 또는 도덕적인 답변, 또는 교과서적인 답변을 한다는 것이죠. 예를 들어 자기 아파트 값 올라갈 것 같아서 찍었다 이렇게 이야기를 안하고 경제가 나아질 것 같아서 이런 대답을 한다는 것이죠.

 

선거날 투표장에 갈 사람은 대부분 잠재적으로 찍을 후보, 정당이 무의식적으로 벌써 정해져 있습니다. 다만 자신이 선택에 대한 합리화, 면피할 기회만을 찾고 있는 것이죠.

 

이런 것은 일반 설문 조사에도 많이 나옵니다. 조직문화에 관해서 설문조사를 하면 윗사람은 좋게 평가하고 아래 사람은 나쁘게 평가하는 경향이 있습니다. 거의 대부분 그렇게 나옵니다. 너무 숫자나 표면에 나타난 것을 맹신하는 것은 좋지 않습니다.

 

 

 

 

2. rule of succession

 

 

내일 해가 뜰 확률은 어떻게 될까요? 옛날 Laplace라는 세계적인 수학자가 이 문제를 풀었습니다. 물론 정답은 아니죠. 정답이라는 것이 없겠죠. 단지 어떤 답이 나오는 풀이 과정을 제시했다는 것이죠.

 

Laplace가 제시한 답은 무엇일까요?

 

만약 동전을 100번 던졌는데 20번 앞면이 나왔다면 앞면이 나올 확률은 어떻게 될까요?

교과서적인 답은 20/100=0.2 이겠죠. 그러나 Laplace의 논리에 의하면

 

(20+1)/(100+2)가 되어야 합니다.

 

즉 N번 관찰해서 그 중에서 어떤 현상이 r번 나왔다면 다음에 r이 나올 확률은

 

(r+1)/(N+2)

 

이라고 주장한 것이죠. 그래서 만번 해 뜨는 것을 관찰했다면 내일 해 뜰 확률은

 

(만+1)/(만+2)가 됩니다.

 

그러나 Laplace의 이런 주장은 그 당시 수많은 사람들에게서 조롱을 받아 매우 고통스러워 했다고 합니다.

 

Laplace의 이 주장을 rule of succession라고 합니다. 전개 과정은 Ross 책이나 Jaynes 책에 자세히 있습니다.

 

이런 현상은 자주 목격하죠, 어떤 평균 타율이 0.25인 야구 선수가 앞에 세 번 나와 다 아웃되었을 경우 4번째 나왔을 경우 안타를 칠 확률은 어떻게 될까요?

 

교과서대로 하면 독립시행으로 봐서 0.25라고 할 수 있고, 앞에서 계속 죽었으니까 오늘 컨디션이 안 좋다고 생각해서 4번째도 아웃될 가능성이 많다고 이야기 할 수도 있고, 평균 타율이 0.25이기에 이번에는 칠 가능성이 많다고 이야기를 할 수 있겠죠.

 

여러분은 어떤 생각이 맞는 것 같습니까?

 

 

이런 경우도 있죠. 고도리를 치다가 계속 잃으면 잠시 쉬겠다고 빠져나가죠. 잠시 운이 안좋다고 생각하는 것이죠. 과연 이 전략이 좋은 것일까요?

 

이것은 증명이 되어 있습니다. 해봐자 별 볼일 없습니다. 게임이 룰이 바뀌지 않는 이상 앞의 게임의 결과에 따라 게임에서 이리 빠져보고 저리 빠져 봐도 결과는 안바뀐다는 것이죠. 이 정리를 Optional Skipping 정리하고 합니다.

 

 

 

 

3. 분산분석에 이 공식만 알면 된다.

 

분산분석에서 이것만 알면 척 할 수 있습니다.

 

회귀분석에서 분산분석의 기본 개념에 대해서 많이 썼습니다. 그런데 이게 기초통계학에 하나의 공식으로 정리되어 있습니다. 좀 어려워 보이지만 생각하면 간단합니다.

 

그 공식은

 

Var(Y)=Var(E(Y|X)]+E[Var(Y|X)]

 

입니다. 어렵게 보이죠? 예를 들어 Y를 학생들의 수학점수라고 하죠. 그리고 X를 성별이라 하고요.

 

그럼 위 식은 다음과 같이 해석됩니다.l

 

학생들 수학 점수의 변동= 성별 수학점수 평균의 변동+각 성별내에서 변동

 

이게 바로 분산분석이요.

 

여기서 E[Y|X)는 성별 학생들이 평균 점수로 해석되고, Var(E(Y|X)]는 성별, 즉 그룹간 변동이라 하고 뒤 쪽의 Va(Y|X)는 성별 학생들의 변동이고 E[Var(Y|X)]는 각 성별, 그룹내의 변동이라 합니다.

 

그래서 총변동=그룹간 변동+그룹내 변동

 

이렇게 되고, 그룹내의 변동은 여전히 설명이 안되는 변동이라서 필요하면 Y라는 현상을 설명하기 위해서는 다른 변인을 더 생각해야 한다는 것이죠.