비모수통계이해/비모수통계이해

비모수통계 소개1

학위논문통계 2017. 1. 17. 15:42

 

 

1. 비모수 통계의 정의

 

일반적으로 통계 방법론을 보면 통상 관찰되는 변수의 분포가 가정되어 있습니다. 키나 몸무게의 경우 정규분포를 한다는 가정이 되어 있습니다. 일반적인 회귀분석도 대부분 정규분포로 가정되어 있고, 로지스틱 회귀분석은 종속변수가 베르누이 시행으로 가정되어 있습니다.

 

단지 이 분포에 들어 있는 모수를 모르는 것이고 데이터를 통해 이 모르는 모수를 추정하거나 또는 가설검증하는 것입니다.

 

통상 비모수 통계는 관찰 변수들에 대한 분포를 가정하지 않은 것입니다. 그러나 정확하게는 분포의 모수가 finite한 경우를 모수통계라 하고 finite하지 않은 경우를 비모수 통계라 합니다. 대표적인 예가 관찰된 변수 X는 대칭분포를 가정할 경우 이 경우는 대칭분포라는 분포를 가정했지만 이 가정에서 모수는 무한대이기 때문에 비모수 통계라 합니다.

 

 

 

2. 언제 사용하는가?

 

논문에서 비모수 통계가 주로 사용되는 경우는 실험의 효과를 보는 논문일때가 대부분입니다.

 

실험의 경우 대부분 사람이나 동물을 대상으로 하기 때문에 시간과 돈의 문제로 표본수가 매우 적습니다. 이 경우는 중심극한정리를 적용하기 힘듭니다. 중심극한 정리는 표본평균(이론적으로 조금 예민한 부분이 있지만 표본합도 마찬가지입니다)은 관찰된 변수가 어떤 분포에서 왔더라도 표본수가 많으면 정규분포를 한다는 매우 통계 이론에서 매우 중요한 정리입니다. 즉 표본 수가 많으면 분석에서 평균이 사용된다면 데이터가 어떤 분포에서 왔든지, 즉, 정규분포인지, 정규분포가 아닌지에 대해 신경 쓸 필요가 없다는 것입니다.

 

실험 효과는 통상 표본평균(또는 표본 합)의 변화를 보는 것인데 표본수가 적으면 이 중심극한정리를 적용하기 힘듭니다. 그래서 이걸 그냥 t 검증이나 분산분석을 한 결과를 믿기 힘듭니다. 여기서 결과는 또는 통계 프로그램에 나오는 p 값을 이야기합니다. 이 p 값을 믿기 힘들기 때문에 유의적인 차이가 있다는 가설 검증도 믿기 힘들다는 이야기죠.

 

그러나 정확하게 표본 수, 즉 실험대상자 수가 몇 명이상이면 t 검증이나 분산분석을 안심하고 사용할 수 있는지는 정해진 것이 없습니다. 제 판단에는 실험군, 대조군 20명 이상이면 안심하고 t 검증이나 분산분석을 사용해도 결과에 큰 차이가 없을 것이라 봅니다. 20명 이하면 교수나 저널 심사위원 마음이죠. 교수나 저널 심사위원이 우기면 하라는대로 하는 수 밖에 없죠.

 

 

일반적으로 사회과학 척도는 두 단계의 중심극한 정리가 적용됩니다.

 

 

첫 번째가 문항 수입니다. 예를 들어 사람들의 우울에 대해 측정하려면 우울의 정도를 파악하는 설문 문항이 여러개 있습니다. 이 여러개의 설문문항의 평균이나 합을 먼저 구합니다. 여기서 일단 중심극한정리가 적용될 수 있습니다. 즉 여러개 설문문항을 평균이나 합을 한 결과가 어느 정도 정규분포에 가까울 가능성이 꽤 높습니다.

 

 

두 번째는 이렇게 여러문항을 평균이나 합을 측정값을 다시 설문대상자를 대상으로 전체 평균이나 합을 구합니다. 아래 표를 보시죠.

 

id

우울1

우울2

우울3

우울4

우울 평균, 합

1

3

4

3

4

3.5

2

5

4

4

5

4.5

...

100

2

3

2

3

2.5

전체

3.15

 

위의 표에서 회색부분이 여러분이 설문지를 보고 코딩한 raw dataset입니다. 즉 설문지 보고 엑설에다 이런 표를 만드는 것을 코딩한다고 합니다.

 

우울에 대해 알고 싶어서 설문조사했는데 우울을 측정하는 설문문항이 4개나 된다는 것이죠. 이 우울을 측정하는 4개 문항에 대해서는 일반적으로 분석을 하지 않습니다. 사회복지나 의료, 간호 쪽에서는 이 세부적인 설문문항도 분석하라는 요구를 할 때가 많지만 일반 사회과학에서는 하지 않습니다.

 

그럼 이 설문문항 4개를 분석하지 않고 어떻게 하는가? 이 4개의 설문문항을 각 설문자 각각에 대해 평균이나 합을 구합니다. 이 평균이나 합을 우울의 척도로 사용합니다. 이게 마지막 칸에 있는 파란색 부분입니다. 그래서 이 부분은 본인이나 아니면 통계 분석가가 해야 할 부분입니다.

 

흔히 합을 구하라고 하는 경우가 많은데 절대적으로 평균이 좋은 척도입니다. 이론상은 같습니다. 즉 평균을 하나 합으로 하나 어떤 분석을 하든 p 값은 정확하게 일치합니다. 따라서 가설 검증 결과도 일치하고요. 그러나 평균으로 표를 만들 때가 훨씬 유용합니다. 즉 우울의 정도가 어느 정도인지, 또는 하위변인이 있을 때 상대적으로 어떤 종류의 우울이 높고 낮고 이런 것을 판단하기가 훨씬 쉽습니다. 또는 결측값이 있는 경우도 평균이 훨씬 좋고요,

 

그래서 오른쪽에 설문문항들이 평균이나 합을 구한 다음 t 검증이나 분산분석을 통계 프로그램에서 돌리면 아래 설문 응답자 전체를 대상으로 하는 평균값을 구해 줍니다. 이건 그냥 메뉴에서 t 검증이나 분산분석을 하면 프로그램에서 자동적으로 나오는 값입니다. 이게 오른쪽 맨 아래에 분홍색으로 표시된 값입니다. 통상 논문이나 저널에 나오는 값이 이 맨 오른쪽 아래에 있는 평균값입니다. 이게 두 번째 단계에서 증심극한 정리가 적용된 것입니다.

 

그래서 2번이나 중심극한 정리가 적용되기 때문에 일반사회과학에서는 사전에 분포 검증같은 것을 잘 안합니다.

 

 

 

3. 비모수 통계의 단점

 

 

비모수 통계는 분포를 가정하지 않기 때문에, 즉 관찰된 변수 분포의 수학적 표현이 없기 때문에 할 수 있는 영역이 극히 제한적입니다. 조금 고급적인 통계 방법론은 적용할 수 없습니다. 이론적으로 조금 어려운 분야가 밀도추정(density estimation) 분야입니다. 즉 관찰된 값을 보고 자연스런 분포 모양을 추정하는 분야입니다. 여기서 구간을 어떻게 짜르는 방법에 따라 추정하는 분포 모양이 완전히 달라집니다. 하여간 비모수 통계 순수 이론은 매우 어렵습니다. 하여간 일반인이 보기에 어렵게 보이는 분야가 밀도 추정이론 분야라는 것이죠.

 

그래서 별 할 수 있는 분야가 없기 때문에 대부분 t 검증 비슷한 집단간의 차이 정도를 보는 분야에서만 많이 사용됩니다. 그래서 실험 효과에서 비모수하라는 요구를 많이 하는 편이죠. 실험집단과 통계집단이 사전에 동질적인지 아니면 두 집단이 사후에 실험효과가 있는지, 실험집단과 통제집단의 사전 사후 변화가 차이가 있는지 이런 정도를 보는 것입니다.

 

비모수 통계에 대해 잘 설명한 책이 Conover의 “Practical Nonparametric Statistics"입니다. 일반인도 쉽게 이해할 정도로 간략하게 잘 쓴 책입니다. 저는 학부때 배웠는데 책을 잃어버렸습니다.

 

하여간 실험에서 많이 사용하는 비모수 통계는 Mann-Whitney U test와 Wilcoxon Signed Rank test입니다. 다음 시간에 여기에 대해 조금 자세히 알아보겠습니다.