비모수통계이해/비모수통계이해

비모수통계2

학위논문통계 2017. 1. 20. 13:37

 

 

 

 

1. 비모수 통계의 특징

 

 

비모수 통계에서는 표본수가 적어 표본평균의 중심극한정리를 사용하지 않고 또 분포 가정을 안하니까 표본평균의 분포를 사용할 수 없습니다. 그래서 여기서는 표본평균대신 표본중앙값 sample median을 사용하고 원 데이터 값을 사용하지 않고 순위값(rank) 개념을 주로 사용합니다.

 

 

2. 모수통계와 비모수 통계

 

 

모수통계일 경우 사용하는 통계방법론과 비모수 통계일 경우 사용하는 통계방법론를 표로 정리하면 다음과 같습니다. 실험효과 논문 쓰는데는 이것만 하면 충분합니다.

 

비모수통계

모수통계

상황

비고

Wilcoxon Signed Rank Test

t-test

하나의 집단에서 중앙값 검증할 때

 

1.기초통계학에서는 가정 처음에 나오는 가설입니다. 하나의 집단에서 평균에 대한 가설검증 방법입니다.

 

2. 실제 논문에서는 이 가설검증은 거의 나오지 않는다고 생각하시면 됩니다.

 

Mann-Whitney U test

t-test

두 개의 독립적인 집단에서 두 집단의 동일한 집단인지, 즉 두 집단의 평균이 같은지 검증할 때

 

1. 실험논문에서 두 집단의 사전 동질성 검증할 때, 또 사전에 두 집단이 동질섬 검사를 통과한 후 사후에 실험군과 대조군의 사후 실험효과 검증할 때 사용

 

2. 두 집단의 평균을 검증할 때 사용하지만 사실상 순위(rank)를 구한 후 순위합(rank sum)을 사용하여 검증함

 

Wilcoxon Matched Pairs Signed Rank Test

paired t-test

두 집단의 독립이라 가정할 수 없는 경우 두 집단의 평균이 같은지 검증할 경우

 

1. 여기서 두 집단이라는게 꼭 사람을 이야기하는 것은 아닙니다. 즉 동일한 집단이라도 관찰치가 독립적이지 않을 경우도 사용합니다. 예를 들어 실험집단만 할 경우 사전 점수와 사후 점수가 있습니다. 이 경우 사전점수와 사후점수를 비교할 때 이 두 점수가 독립적이라 할 수 없습니다.

 

2. 실험군의 사전 점수와 사후점수가 동일한지, 또는 대조군의 사전점수와 사후점수가 동일한지 검증합니다. 실험의 효과가 있는 경우 실험군에서는 사후점수가 사전 점수보다 긍정적으로 변해야 하는 방면 대조군에서는 사전 점수와 사후 점수간에 유의적인 변화가 없어야 합니다.

 

3. 사전 점수가 동질적으로 나오지 않으면 이 방법을 사용해서 실험효과를 볼 수 있지만 이론적으로 완벽한 방법은 아닙니다. 모수통계인 경우 사전동질성 검사가 통과하지 않으면 공변량분석(ANCOVA)를 사용하면 됩니다. 아니면 처음부터 사전 동질성 검사를 무시하고 공변량분석을 하면 됩니다.

 

Kruskal-Wallis ANOVA

ANOVA(분산분석)

독립적인 집단이 여러개인 경우, 즉 집단이 2개 이상인 경우 여러집단이 동질적인지 검증할 때

 

실험효과 논문에서는 별로 사용할 수 없는 통계방법론입니다. 실험에서 treatment의 효과가 지속적인지 알기 위해 사전, 1차, 2차, 3차 등 조사할 수 있습니다.

 

그러나 앞에서 이야기한 Wilcoxon Matched Pairs Signed Rank Test에서 설명했듯이 이 경우는 여러집단(즉 사전, 1차, 2차, 3차 점수)가 독립적인 집단이 아닙니다.

 

 

 

 

 

3. Wilcoxon Signed Rank Test

 

Wilcoxon Signed Rank Test는 실제 논문에서는 거의 사용되지 않지만 실제 비모수통계 계산이 어떻게 되는지 이해하기 위해서 간단히 설명하겠습니다. 앞에서 이야기했지만 우울을 5점 likert 척도로 설문조사한 후 우울 설문문항들의 평균이나 합을 구해야 한다고 했습니다. 여기서 우리가 하고 싶은 것은 우울 값을 보고 우울의 중앙값이 3.0 즉 “보통이다”인가 아닌가를 검증하고 싶은 것입니다.

 

 

즉 여러분이 연구 대상이 65세 이상 노인이고 그래서 65세 이상 노인 10명을 대상으로 우울에 대해 설문조사를 했다는 것이죠. 그래서 이 10명의 노인에서 구한 우울 값을 보고 우리나라 65세 전체 노인의 우울의 중앙값이 Liket 척도상 3.0(보통이다)인지 아닌지 판단을 하고 싶다는 것이죠. 여기서는 간단하게 노인 5명에게서 조사했다고 하죠.

 

 

우울 원 척도 X

D=(X-중앙값)

|D|의 순위

부호

4.3

1.3

4

+

2.5

-0.5

2

-

1.5

-1.5

3

-

3.7

1.7

5

+

2.7

-0.3

1

-

 

 

여기서 우리가 구하는 것은 부호 순위(signed rank)의 합입니다. 즉 부호가 +인 경우, 원 측정값이 가설의 중앙값보다 큰 경우의 순위 합. 또는 부호가 -인 경우, 원 측정값이 가설의 중앙값보다 작은 경우 순위의 합을 구합니다.

 

 

여기서 전체 순위의 합은 1+2+3+4+5=15입니다. 그래서 부호가 전부 +가 나오거나 전부 -가 나오면 +순위 합도, -순위 합도 15가 되고 이 경우는 귀무가설이 완전히 기각되는 경우입니다.

 

 

만약 가설의 중앙값이 적절하면 +나오는 경우와 - 나오는 경우가 비슷해야 합니다. 즉 5 개중 2,3개는 +, 나머지 2,3개는 - 나와야 하고 그리고 차이 |D|도 서로 비슷해야 합니다. 즉 + 경우 |D|의 합과 - 경우 |D|의 합의 값이 서로 비슷해야 합니다.

 

 

즉, 여기서 순위합의 평균이 15/2=7.5이니까 +|D|의 합이나 -|D|의 합이 7이나 8 근처에 있으면 강력하게 귀무가설 H0, 즉 중앙값이 3.0이라는 것을 지지하고, 15에 가깝게 되면 강력하게 대립가설 H1, 즉, 중앙값이 3.0이 아니다라는 주장을 지지하게 되는 것입니다.

 

 

우리의 경우 +|D|의 합만 구해보면 4+5=9로 나와서 대립가설보다 귀무가설에 더 힘을 실어주는 경우라 볼 수 있습니다. 정확하게 이론적 가설 검증은 통계프로그램에서 알아서 해 주니까 그 결과를 보시면 됩니다.