기타통계이야기/여론조사 신뢰구간 신뢰수준

여론조사 신뢰구간, 신뢰수준(첨가합니다)

학위논문통계 2013. 3. 16. 22:37

 

이번에는 여론조사에서 많이 나오는 신뢰수준과 신뢰구간에 대해 간단히 알아 볼까요.

 

신뢰수준과 신뢰구간은 서로 상충적인 개념입니다. 즉, 신뢰수준을 높이고 신뢰구간이 늘어나고, 신뢰수준을 낮추면 신뢰구간이 좁아집니다. 신뢰구간이 커지면 좋은 것으로 생각히시면 이 신뢰구간 추정을 잘 못 배우신 것입니다.

 

우리의 주장이나 또는 진술에는 그 주장이나 진술의 구체성이 있습니다.

다음의 예를 들어 보십다.

 

 

S1. 당신은 1년 안에 죽는다.

S2. 당신은 10년 안에 죽는다.

S3. 당신은 언젠가는 죽는다.

 

위 3 개의 진술 중 어떤 것이 가장 구체적인가요. S1이 가장 구체적이고 S3가 가장 포괄적이죠. 반면에 위 주장이 맞을 확률은 어떻게 될까요? S3는 생각하나 마나 100% 맞는 말이죠.

 

즉, Pr(S1) < Pr(S2) < Pr(S3) 입니다.

 

다시 말하면 주장이나 진술의 구체성이 떨어질수록 그 주장이나 진술이 맞을 가능성이 높아집니다.

 

 

위와 같이 주장이나 진술의 구체성의 개념이 신뢰구간이고 주장이나 진술이 맞을 가능성이 신뢰수준입니다. 신뢰구간의 커지면 구체성이 떨어집니다. 위 S3의 경우를 생각하면요.

 

그림 여론조사에 나오는 신뢰구간은 어떻게 구하는 것일가요. 예를 들어 어떤 설문조사 기간에서 95% 신뢰수준에서 문재인 지지율이 40%로 나왔고, 표본오차가 +-3%로 나왔다고 하죠. 그럼 주장이나 진술은 다음과 같습니다.

 

S1: 진짜 문재인 지지율 p는 40-3%와 40+3% 사이에 있다. =  40-3%< p < 40+3%

 

그리고

 

 Pr(S)=위 진술이 맞을 가능성=Pr( 40-3% < p < 40+3%)=0.95

 

라는 것이죠.

 

만약

 

 S2:: 진짜 문재인 지지율 p는 0과 100% 사이에 있다

 

라는 주장을 살펴보죠.

 

이 말이 맞을 가능성은 100%이죠. 즉 신뢰수준이 100%입니다. 그러나 말의 구체성은 완전 깡이죠. 하나 마나한 주장이요. 즉, 위 S2는 아무런 필요가 없을 정도로 신뢰구간이 너무 넓습니다.

 

즉 결론적으로 이야기 하면 우리가 말을 구체적으로 하면 할수록 신뢰수준이 떨어지고, 말이나 주장을 폭넓게 할수록 신뢰수준이 올라간다는 것이죠.

 

애매모호 화법이 유능한 처신이 되는 이유이기도 하죠.

 

그러나 우리의 현실 경험에서는 구체적인 진술일수록 더 신뢰성을 갖는 경우가 많습니다. 특히 어떤 조직의 내부 고발의 성격일수록 그런 경향이 있죠.

 

통상 조직 내부에 있는 사람을 제외하고 우리는 한 조직에 대해 자세하고 구체적인 정보를 가지고 있지 않습니다. 겉으로는 보이는 이미지나 아니면 단편적인 신문,방송에 나오는 정보에 의존하죠. 이런 정보는 조작되어 있을 가능성이 매우 많습니다.

 

그런 경우에 내부의 구체적인 진술, 특히 조직의 잘못된 내용에 대한 진술이 나오면 사람들이 그 진술을 굉장히 신뢰를 합니다. 특히 조직의 내부 비판의 경우 자신의 불이익을 감수해야 하기 때문에 더욱 신뢰를 하는 것이죠.

 

그러나 우리나라는 정치적으로 싸우는 경우가 많아서 앞으로 이런 내부고발 성격의 진술조차 제대로 믿기 힘든 상황입니다.

 

 

다음은 조금 이론적인 문제를 써 보죠.

 

문재인과 박근혜 두사람의 지지만 물어보는 경우는 이론적으로 별 문제가 없습니다. 신뢰구간 구하는 것은

 

먼저 설문조사에 나오는 지지율은 표본비율입니다. 이 표본비율은 흔히 우리가 이야기 하는 평균, 즉 표본평균이라는 것을 이해해야 합니다. 이제 100명을 설문조사 했다고 하죠.

 

 

 X=1  만약 문재인을 지지하면,

   =0, 문재인을 지지하지 않으면

 

이렇게 X를 정의하죠.

 

표본비율 즉 표본 지지율 r=(X1+X2+....,+X100)/100= 문재인 지지자 수/전체 설문 응답자

 

이렇게 됩니다.

 

두 번째 이해해야 할 것이 중심극한정리(CLT)입니다. 이 정리에 의하면 표본평균 r은 중심이 진짜 평균, 즉 진짜 비율 p인 정규분포 모양을 한다는 이야기입니다.

 

그래서 이 정리를 이용하여 신뢰구간과 신뢰수준이 정해집니다. 이건 기초 통계학에 나오는 내용입니다. 1학년 기초 통계학을 보시면 됩니다.

 

박근혜 지지율도 대칭에 의해 마찬가지고요. 그래서 별 문제가 없는데

 

문제는 문재인, 박근혜, 기타 후보 이렇게 세 개로만 나눠도 신뢰구간에서 문제가 생깁니다.

 

p1: 진짜 문제인 지지율, p2, 진짜 박근혜 지지율, p3:기타 후보 진짜 지지율

 

이라고 하죠. 그럼 당연히 p1+p2+p3=1이 되고요. p1과 p2만 알면 p3는 자동적으로 결정되니까 p1와 p2만 생각해보죠.

 

문재인과 박근혜 지지의 신뢰구간을 생각해보죠

 

a1 < 문재인 진짜지지 p1 < a2

 

b1 <박근혜 진짜 지지 p2 < b2

 

이렇게 되겠죠. 그럼 p1을 x축이라 생각하고, p2를 y 축이라 생각하면

 

위 신뢰구간은 사실 p1, p2 2차원 공간에서 사각형 모양을 합니다. 이 차원 공간에서 신뢰사각형 모양을 하고 있다는 것이죠.

 

그러나 불행히도 이런 신뢰사각형 구간을 찾아 낼 수가 없습니다. 삼자 구도인 경우 문재인 지지율 r1과 박근혜 지지율 r2는 중심이 진짜 지지율인 (p1, p2)이고 서로간에 상관관계가 있는 이차정규분포 모양을 합니다. 즉 비딱하게 기울어진 이차 정규분포 모양을 한다는 것이죠. 그래서 타원 모양, 또한 상관관계가 없어도 구 모양의 신뢰구간이 생긴다는 것이죠.

 

예를 들어 이런 식으로 진술을 해야 합니다. 상관관계가 없을 경우

 

pr{ (p1-r1)^2+(p2-r2)^2 < a}=95%

 

뭐 이런 식으로 복잡하게 하여야 하고, 더구나 상관관계가 있는 경우(삼자 구도에서는 당연합니다)는 위의 원의 식이 아닌 타원형 모양의 신뢰구간을 이야기해야 합니다. 그래서 엄밀하게 따지면 매우 복잡합니다.

 

상관관계가 없는 경우 사각형 모양의 신뢰구간을 만들 수 있는데 이런 경우 95% 신뢰도가 아니라 루트 95% 신뢰수준에서 신뢰구간을 만들어야 합니다. 좀 어렵나?

 

 

 

 

아래 부분 첨가합니다.

 

 

그럼 여론조사에서 신뢰도 95%가 실제 상황에서 어떤 의미를 가지고 있을까요? 만약 국회의원 총선이라 지방선거를 생각해보죠.

 

100개의 지역구가 있다고 하죠. 그럼 여론조사에서 나온 신뢰구간에 들어가는 경우가 평균적으로 95개 있고, 신뢰구간에 들어가지 않은 경우가 5개 있다는 것입니다. 따라서 5% 정도 틀리게 나오는 게 정상이고 다 맞추면 이건 소가 뒷걸음치다가 쥐 잡는 꼴이나 아니면 뭔가 사기기 있다는 것이죠(설문대상을 공식발표보다 훨씬 많이 했을 가능성이 있죠).

 

또한 당선자 예측의 경우 전략상 여러 문제가 있습니다. 한 두 번 여론조사에서 압도적으로 나온 경우는 특별한 상황이 나오지 않는 이상 더 이상 여론조사나 선거예측을 할 필요가 없습니다. 특히 우리나라의 경우 전라도난 경북의 경우 그 경향이 심하죠. 이런 경우 인원과 시간을 낭비해서 더 조사할 필요가 없다는 것이죠.

 

이런 상황에서는 경쟁이 심한 지역에 설문인원을 더 투입하여 신뢰수준을 높이는 것이 낫습니다. 특히 이론상 두 지지자의 지지율이 비슷한 경우가 압도적인 경우보다 표본에 따른 오차가 더 심합니다. 그리고 사람들이 관심이 많으니까 혹시 틀리면 더 비난이 심해집니다.

 

그래서 뻔한 지역구보다 여기에 투입되는 돈을 경쟁이 심한 선거구에 돌리는 것이 당선 예측을 올리는 방법입니다.