t검증,분산분석,F검증,ANOVA

통계 해석 분산의 이해

학위논문통계 2022. 7. 18. 11:16

통계학에서 가장 중요한 개념이 평균과 분산입니다.

 

일반적인 수학에서는 이진 논리 세계(옳거나 틀리다)를 다루는 것이지만 통계에서는 확률적인 세계를 다루는 것입니다. 즉 어떤 현상은 하나의 값을 가지는 것이 아니라 분포를 가진다는 것이죠.

 

그런데 이 분포를 설명하는데 가장 중요한 값이 중심값이고 또 하나는 변동입니다.

 

중심값에서 가장 중요한 것이 가장 많이 쓰이는 평균이 있고, 분포가 대칭이 아닌 경우, 즉 소득, 아파트 가격 등 경제 변수 경우 중앙값(median)을 많이 쓰고, 범주형 자료 같은 경우는 최빈값을 쓰기도 합니다.

 

변동(variation)을 측정하는 값으로 가장 많이 사용하는 값이 분산(variance)입니다. 엔트로피도 있고, 또 다른 값도 있는데 지금은 분산(또는 표준편차)로 굳어져 있죠.

 

 

우리가 사회를 설명하는데는 평균 등 중심값이 가장 중요합니다. 그러나 통계 이론을 이해하는데는 변동, 즉 분산이 가장 중요합니다.

 

 

사회과학에서 흔히 쓰는 말 중에 “일반화의 오류”라는 말이 있죠. 그런데 이런 말은 통계학을 이해하는 사람에게는 좀 웃기는 이야기입니다.

 

즉, 극단적인 경우를 가져와서 이게 일반적인 현상이라고 주장할 때 비판하는 말이죠. 그러나 통계학을 이해하는 사람들이 보면 뭘 주장하든 일반화의 오류에 빠집니다.

 

 

통계학 용어로 말하면 중심값, 즉 평균값으로 이야기해야 하는데 극단치(outlier)를 하나 들고 와서 마치 평균인 것처럼 주장한다는 이야기입니다.

 

한국 사람 성인들의 키를 이야기할 때 농구 선수 몇 명만 보고 한국 사람 키는 195cm 정도 된다 이렇게 이야기하면 이건 당연히 멍청한 소리죠. 그리고 이걸 또 일반화의 오류라고 거창하게 비판하는 것도 웃긴다는 이야기죠. 당연한 이야기를 뭘 일반화의 오류라는 거창한 말을 들고 나옵니까.

 

 

성인의 키가 모두 똑같으면 그럼 우리가 더 이상 분석할 것이 없습니다. 즉 분산이 0이면 사회현상이든 자연현상이든 더 이상 분석할 것이 없다는 것이죠.

 

즉 우리가 사회현상이나 자연현상이나 분석을 한다는 것은 값이 모두 똑같지 않고 서로 다르기 때문입니다. 즉 변동, 분산이 존재하기 때문입니다.

왜 값이 똑같지 않고 다르지? 여기에 무슨 이유가 있지 않을까 하는 생각, 이런 생각이 현상간의 인과관계를 밝히는 것입니다.

 

원인==> 결과 이 인과관계를 밝히는 것이 과학적 성과입니다. 이 인과관계를 명확히 밝히면 더 좋은 결과를 만들어 낼 수 있고, 또 나쁜 결과를 사전에 억제할 수 있습니다.

 

그러나 불행히도 이 원인==> 결과인 인과관계를 밝히는 것이 사실상 불가능합니다. 원인은 시간상이나 논리적으로 앞 단계이고 결과는 뒤 단계인데 이 관계를 밝히는 것이 사실상 불가능하다는 것이죠.

 

우리가 실제로 하는 것은 반대로 결과 ==> 원인, 역의 인과관계를 밝히는 것입니다. 즉, 결과가 이렇게 나왔으니까 원인이 이게 아닐까 이런 정도입니다.

 

원인==> 결과의 인과관계를 밝히려면 우리는 정교한 실험을 할 수 밖에 없습니다. 이런 이런 조건(원인)을 사전에 주고 사후에 그 결과를 관측하면 원인과 결과의 인과관계를 어느 정도 밝힐 수가 있습니다.

 

이런 실험 자체가 완전히 불가능한 경우가 대부분이고 또 한다고 해도 쉽지가 않습니다.

 

 

 

사람의 생명을 다루는 의료 분야는 어쩔 수 없이 실험을 해야 합니다. 나중에 사람들이 다 죽고 나서 “어.. 이 약쓰면 안되는가 봬” 이럴 수는 없잖아요.

 

농수산물 같은 것은 실험의 결과를 보는데는 너무 많은 시간이 걸립니다. 벼농사에 좋은 토양과 비료를 알기 위해서는 최소 1년이라는 시간이 걸립니다. 산림의 경우 10년 이상이 걸릴 수도 있고요.

 

이렇게 실험하기가 쉽지가 않기 때문에 어떻게 하면 효과적으로 실험을 할 수 있을까 하는 고민에 빠지게 됩니다. 이런 분야를 다루는 것이 통계학에서 실험계획(experimental design) 분야입니다.

 

 

최근 윤석렬 지지율이 떨어지는 이유에 대해서 이러쿵 저러쿵 말이 많잖아요. 이 인과관계를 명확히 밝히려면 최소한 200명 이상의 다양한 인간을 대통령으로 뽑은 다음에 실험을 해야 합니다. 이건 완전히 불가능하죠.

 

그래서 최대한 할 수 있는 방법은 이미 알려진 기존의 대통령의 경우를 봐서, 또 자기의 인생 경험을 통해서 즉, 이미 알려진 결과를 보고 원인을 찾아보려는 (결과==> 원인) 이라는 역의 인과관계를 추적하는 수밖에 없습니다.

 

역의 인과관계에서 원래의 인과관계로 전환하는 법칙이 베이지 법칙입니다.

 

 

앞으로 윤석열 지지율이 35% 넘어가는 경우는 절대로 생기지 않을 겁니다. 99% 확신으로요. 물론 35% 넘어갈 수는 있는데 이건 표본추출의 오차에서 생기는 것으로 봐야 합니다. 즉 설문조사에서 우연하게 국힘 지지자들이 많이 뽑힌 것이죠.

 

 

그래서

 

현상에서 변동이 있다

 

==> 여기서 (인과==> 결과)의 인과관계를 밝힐 수 있다.

 

==> 현실에서는 (결과==> 인과)의 역의 인과관계를 밝힐 수밖에 없다

 

 

 

그럼 다시 키의 경우로 넘어가죠.

 

한국 성인들의 키가 다양하게 있는데 왜 이렇게 키 차이가 날까요?

 

가장 먼저 생각 할 수 있는 것이 성별이죠.

 

분명히 남성의 키가 여성의 키보다 커죠. 이때 여자 농구나 배구 선수 키를 가지고 와서 아닌 경우도 있다 이런 멍청한 소리를 하면 안되죠.

 

이런 반례를 가지고 와서 주장이 먹히는 경우는 일반 수학에서 하는 이진 논리 세계, 즉 부울의 논리 세계에서나 먹히는 것이지 실제 우리 현실에서는 전혀 안 먹히는 주장입니다.

 

여성의 키나 남성의 키는 좀 더 정확히 말하면 여성의 평균 키, 남성의 평균 키입니다. 사람들이 귀찮아서 평균이라는 말을 생략한 것에 불과합니다.

 

그럼 여기서 키의 변동과 어떤 관계가 있을까요.

 

남자의 키나 여자의 키를 조사하면 전체 성인을 조사할 때 보다 변동이 팍 줄어듭니다. 여성의 키의 분산, 남성의 키의 분산을 조사하면 전체 성인의 키의 분산보다 훨씬 줄어든다는 것이죠.

 

그래서 이렇게 쓸 수 있습니다.

 

성인 전체의 키의 변동

 

= 남녀라는 성별에서 오는 키의 변동+(남자 집단 내에서의 키의 변동, 또는 여성 집단 내에서의 키의 변동)

 

=남녀라는 성별에서 오는 키의 변동+성별로서는 설명이 되지 않는 키의 변동

 

이렇게 생각할 수 있습니다. 그래서 전체 키의 변동에서 성별이라는 원인에 의해 설명되는 키의 변동이 크면 클수록 이 성별이 키의 변동의 원인이 될 가능성이 높아집니다. 이걸 설명력이라고 합니다.

 

그러나 여전히 남자 집단 내에서, 또 여자 집단 내에서 키의 변동이 있습니다. 아직 키의 변동에서 설명하지 못한 변동이 남아 있습니다.

 

그럼 성별말고 성인의 키를 설명하는 원인에는 무엇이 있을까요.

 

아동을 제외해도 연령별에 따른 키의 변동이 있습니다. 노인층의 키보다 지금 젊은 층의 키가 훨씬 커잖아요. 경제 성장의 결과이죠. 그러나 연령의 효과는 몇 십년이 지나면 거의 없어질 겁니다.

 

그래서

 

성인 전체의 키의 변동

 

= 남녀라는 성별에서 오는 키의 변동+연령에서 오는 키의 변동+(동일 성별과 연령대 내에서 키의 변동)

 

=남녀라는 성별에서 오는 키의 변동+연령에서 오는 키의 변동+(성별과 연령으로도 설명되지 않는 변동)

 

 

그럼 동일 성별에 동일 연령대에서는 키에서 차이가 있는데 이 차이는 어떤 원인에서 나오는 것일까요?

 

여기서 부터는 순수한 개인적인 요인이라 볼 수 있습니다. 딱 생각나는 것은 유전적인 요인인 부모의 키이겠죠. 즉 부모의 평균 키가 크면 자식의 키가 크고 부모 평균 키가 작으면 자식의 키가 작겠죠. 그래서 다음 단계는

 

성인 전체의 키의 변동

 

= 남녀라는 성별에서 오는 키의 변동+연령에서 오는 키의 변동+부모의 키에 따른 변동+(동일 성별과 연령대, 동일 부모의 키 내에서 키의 변동)

 

=남녀라는 성별에서 오는 키의 변동+연령에서 오는 키의 변동+부모의 키에 따른 변동+(성별과 연령, 부모의 키로서도 설명되지 않는 변동)

 

동일 성별, 동일 연령대, 같은 부모라고 해도 자녀간의 키의 차이가 있죠. 이건 우리가 전혀 설명할 수 없는 순수한 변동입니다. 이게 바로 오차, 또는 노이즈라고 하는 부분입니다.

 

그리고 전체 변동에서 성별, 연령대, 부모 키가 설명하는 변동의 비율이 흔히 회귀분석에서 보는 R2(결정계수)이고 이게 적합도의 하나의 척도입니다.

 

지금까지 설명한 것이 통계학에서 나오는 t 검증, 분산분석(ANOVA) 또는 회귀분석의 핵심적인 내용이고 이게 따지고 보면 결과에 해당하는 종속변수의 변동, 즉 분산을 원인에 해당하는 독립변수가 어느 정도 설명하는가 하는 문제입니다. 실제로 대부분의 통계 분석에 다 들어 있습니다.

 

 

통상 키가 큰 남녀가 만나서 결혼하거나 키가 작은 남녀가 만나서 결혼하는 경우가 많습니다. 그럼 다음 부모가 키가 큰 경우는 후대에서는 키가 더 커지고, 부모가 키가 작은 경우는 후대에서는 키가 더 작아지고 이런 현상이 일어날 것 같은데 현실에서는 그렇지 않습니다.

 

어떤 평균적인 경향으로 회귀하는 경향이 있습니다. 즉, 부모가 키가 큰 경우 자식은 상대적으로 키가 작고, 부모가 키가 작은 경우 상대적으로 자식은 키가 커집니다. 회귀분석이라는 용어가 생긴 이유입니다.