통계이론/대조, 사후분석, 다중추론

대조(contrast), 사후분석(post hoc), 동시추론

학위논문통계 2022. 11. 1. 13:22

여기에 나오는 내용을 정말 정확하게, 또 깊게 공부하시려면 SheffeANOVA를 권합니다. 저는 학부때 이 책을 가지고 공부했지만 솔직히 통계학과 학부 수준에서도 상당히 어려운 책입니다. 그 당시 교수가 워낙 실력있는 교수라 학생들 수준을 무시하고 사용한 교재입니다.

 

예를 들어 분산분석을 어떻게 하면 회귀분석 결과로 나오게 할 수 있을까 의문이 들 때 이 책을 보면 자세히 나옵니다. spss에서 parameter estimates를 체크하면 회귀분석이 아닌데도 회귀분석 결과물이 나옵니다. spss처럼 회귀분석 결과물이 나오도록 하려면 이론적으로 어떻게 하면 되는지 자세히 설명되어 있습니다. 간단히 말해 Design 행렬을 어떻게 01로 적어 넣을지 가르쳐 줍니다.

 

 

 

spss 결과물에 보면 contrast(대조, 대비), post hoc(사후 분석), multiple comparison(다중 비교)라는 용어가 자주 나옵니다.

 

그러나 실제 논문에 쓰이는 경우는 일원분산분석시 사후분석만 쓰입니다. 이것도 옛날 사회과학에서 통계가 약할 때, 또는 논문 양을 채우기 위해서 쓰이지 요새는 일원분산분석 자체를 거의 안합니다.

 

 

먼저 contrast에 대해서 먼저 설명하겠습니다. 이건 사전에 하는 방법인데요. 다음의 예를 한번 들어 보겠습니다.

 

학력별로 초봉에서 차이가 있는지 검증하겠습니다. 학력은 고졸, 대졸, 그리고 대학원 이상 학력 이렇게 범주화 되어 있고요, 고졸 학력자의 초봉 평균은 u1, 대졸 학력자의 평균 초봉은 u2, 대학원 이상 학력자의 평균 초봉은 u3라고 하죠.

 

그럼 우리가 분산분석할 때 나오는 F 검증은 다음의 가설을 검증하는 것입니다.

 

귀무가설 H0: 학력에 따라 초봉에서 차이가 없다.

 

대립가설 H1: 귀무가설이 틀렸다=학력에 따라 초봉에서 차이가 있다=최소한 하나의 학력자는 다른 학력자와 초봉에서 차이가 있다.

 

이렇게 됩니다.

 

그래서 분산분석을 해서 F 검증 해보니 유의적으로 나왔습니다. 그럼 우리가 내릴 수 있는 결론은 하나밖에 없습니다. 뭔지 모르지만 최소한 하나의 학력자는 다른 학력자와 초봉이 다르네.

 

그럼 다음의 문제를 생각할 수 있습니다. 그럼 차이가 있는데 어느 학력자와 어느 학력자와 초봉이 다른지 이것 알 수 없을까? 이것 하는 것이 사후분석(Post hoc) 분석입니다.

 

또 하나는 이렇게 초봉에서 차이가 나는데 혹시 대학원 학력자 초봉 u3는 고졸 학력자 초봉 u12배가 되지 않을까? 이것 검증할 수 있을까 이런 의문이 들 수 있습니다.

 

그럼

 

귀무가설 H0: 2*u1=u3, , 2u1-u3=0

대립가설 H1: 귀무가설이 틀렸다.

 

그럼 이 경우에 contrastu1, u2, u3의 계수를 지정하시면 됩니다. , 2*u1+0*u2-u3=0이기 때문에 2, 0, -1를 지정하시면 됩니다. 별 어려운 개념은 아니지만 논문에 나오는 경우가 거의 없기 때문에 당혹스런 용어가 될 수 있습니다.

 

사후 분석은 다중비교와 거의 같은 개념입니다.

 

이 사후 분석은 분산분석을 하다면 꼭 집어넣어야 하는 결과입니다.

 

앞에서 이야기한 것처럼 학력별로 초봉에서 차이가 난다고 F 검증 결과 나왔습니다. 그럼 도대체 어디서 차이가 났는지 궁금할 수 있다는 것이죠.

 

다중비교는 일일이 짝으로 다 해보는 것입니다. (고졸, 대졸), (고졸, 대학원졸), (대졸, 대학원 졸) 이렇게 일일이 다 해보는 것이고요.

 

사후 분석도 같은 것을 하는데 한꺼번에 처리를 해 주기도 합니다. 예를 들어 (고졸=대졸<대학원 졸) 이런 결과를 한꺼번에 얻을 수 있습니다. 물론 사후 분석에는 정말 많은 방법론이 있는데 경우에 따라 다중비교 결과도 보여주기도 합니다.

 

spss에서 나오는 사후 분석 방법론 다 알아야 할까요? 아닙니다. 전혀 필요없습니다. 통계 전공한 사람도 모릅니다. 앞에서 이야기한대로 저는 학부에서 Sheffe 책을 가지고 공부를 했기 때문에 그 당시 중요한 몇 몇 방법은 이론적으로 배웠습니다. 그러나 전혀 기억을 못하죠. 그러니까 통계 전공한 사람이다가 이 분야 전공한 사람만 제대로 아는 것입니다.

 

 

그런데 사후 분석에서 왜 이리 많은 방법론이 있을까요. 분산분석 F 검증에서는 유의적으로 나왔는데 사후 분석에서는 모든 집단이 다 똑같다고 나올까요. 분산분석 F검증에서는 유의하지 않았다고 나왔는데 왜 사후 분석에서는 다른 집단이 있다고 나올까요.

 

회귀분석에서 F 검증에서는 유의적으로 나왔는데 독립변수들의 t 검증에서는 모두 유의하지 않게 나왔을까요. F 검증에서는 유의적하지 않게 나왔는데 독립변수 t 검증에서는 유의적으로 나온 독립변수가 있을까요.

 

회귀분석의 F 검증의 가설은

 

귀무가설 H0: 회귀계수 b들은 모두 0이다.

대립가설 H1: 최소한 하나의 회귀계수는 0이 아니다.

 

이런 문제를 동시 추론(simultaneous inference)문제라 합니다.

 

모든 주장이나 현상이 각각 다 독립이면 문제가 쉽게 해결이 됩니다. A가 옳을 확률이 p1, B가 옳을 확률이 p2이고 서로 독립이면

 

둘 다 옳을 확률=p1*p2

둘 다 틀린 확률=(1-p1)*(1-p2)

 

이렇게 간단하게 되지만 독립이 아니면 정확한 관계를 우리가 모릅니다.

 

그래서 회귀분석에 나오는 t 검증의 p 값들과 F 검증이 p 값과 어떻게 연결을 시킬 수가 없습니다. 독립변수가 하나인 단순회귀분석에서는 t2=F, 따라서 t 검증의 p값과 F 검증의 p값이 일치하지만 독립변수가 2개가 넘어가면 독립변수들끼리 서로 상관관계가 있어 t 검증에서 나오는 p 값들과 F 검증에서 나오는 p 값과 서로 연결시켜주는 법칙을 발견할 수 없습니다.