논문통계해석하기

0826자주하는 질문1

학위논문통계 2021. 8. 26. 22:45

0. 질문

 

포스트 감사합니다. 공변량 분석 관련해서 도저히 답을 못찾겠어서 여기 저기 찾던 중 블로그를 보게 됐습니다. 혹시 질문 하나 드려도 될까요? 독립변수는 4개의 그룹 (3개 그룹 더미 코딩, 1개 그룹 기저변인), 종속변수는 연속형변수, 통제변수는 인구통계변인 (성별, 인종 등 더미 변수 2) + 연속형변수 (10). 회귀분석을 4가지로 달리 모형을 만들어서 (각각의 그룹을 기저변인으로 해서) 했을 때 그룹 2의 효과는 그룹 1,3보다 유의적으로 크다고 나오고, 4와의 차이는 p=.05레벨에서 유의하지 않다고 나옵니다.

 

질문 1) 4가지 모델에서 두개의 그룹 간 차이에 대한 상관계수는 부호만 다르고 숫자는 같아야 하는것 같은데 다 다릅니다. 예를 들어, 그룹 1을 기저변인으로 했을 때 그룹 2의 상관계수는 0.63인데 그룹 2를 기저변인으로 했을 때 그룹 1의 상관계수는 -0.61로 약간 차이가 있습니다. 왜 이런 결과가 나오는 걸까요?

 

질문2) 아마 1번과 비슷한 질문일 것 같은데, 공변량 분석을 해보면 (fixed factor에 그룹을 covariate에 통제변수들을 넣고도 해봤고, 인구통계변인 중 더미변수를 fixed factor에 넣고도 해봤습니다) 그룹이 종속변수에 미치는 영향이 유의하지 않다고 나옵니다. 당연히 두 그룹간 사후검증도 모두 유의하지 않고요. 선생님께서 위에 말씀하신 것처럼 공변량분석과 회귀분석 결과가 같아야 하는데 왜 차이가 나는걸까요? 어떤 경우에 이런 현상이 발생하는지도 궁금합니다. 저널 리뷰어가 두개 다 분석해보라고 해서 했는데 두 결과의 차이를 설명 못하면 통과할 수 없을 것 같아서요. 꼭 답변 부탁드립니다

 

답변

 

==> 답하기 전에 공변인을 10개가 넣었다는데요. 이 숫자 확 줄이세요. 이렇게 독립변수를 많이 넣으면 다중공선성 문제도 있지만 대부분의 경우 영향력이 각 독립변수로 분산이 되어 버려 관심있는 독립변수가 유의하게 나오지 않은 경우가 태반입니다. 가능하면 독립변수와 관계가 있고 종속변수에 영향력이 많은 변수를 제거하는 것이 좋죠. 일종의 합법적인 논문조작이죠.

 

이게 지금 검찰놈이나 판사놈들이 하는 짓걸이죠. 합법이라는 가면하에서 온갖 더러운 짓을 한다는 것이죠.

 

하여간 모형은 간단할 수록 좋습니다. 이걸 절약의 법칙이라 합니다. 독립변수를 많이 넣으면 적합도 즉, 결정계수는 무조건 커지지만 이게 좋지는 않다는 것입니다. 적합도에서 큰 차이가 없는 경우 가능하면 변수의 수를 줄이는 것이 좋습니다.

 

 

지금 상황이 독립변수로 잡은 범주형에 따라 종속변수가 차이가 있는지 이걸 보고 싶은 것이죠.

 

예를 들어 비료 4가지를 썼을 경우 사용하는 비료에 따라 농작물 산출량에서 차이가 있는지 보고 싶은데 강우량이나 또는 토양의 산성비 등이 산출량에 영향을 미치기 때문에 이걸 통제하기 위해 공변량으로 넣었다는 것이죠.

 

지금 물어 본 상황으로 보면 공변량 분석이 맞습니다. 그러나 비료가 단지 2개 뿐인 경우는 회귀분석을 해도 똑 같은 결과를 얻을 수 있습니다.

 

 

다범주 명목형 변수인 경우 회귀분석에서는 공변량 분석과 같은 결과를 얻을 수가 없습니다. 지금 더미 변수로 만들어 4개의 회귀분석을 했다고 하는데 이 말은 이해가 안되고요.

 

범주가 A, B, C, D 가 있으면 D를 기저, 즉 0으로 코딩하고 A와 D 더미변수하여 회귀분석하고, B와 D를 더미변수화하여 회귀분석을 하고, C와 D를 더미변수화하여 회귀분석을 하고 이렇게 각각 회귀분석을 했다는 말인지요.

 

일반적으로 다범주 명목형 변수를 회귀모형에 이렇게 넣지를 않습니다. 통상 하는 방법은 다음과 같습니다. 더미A=(1,0,0), 더미B=(0,1,0), 더미 C=(0,0,1)

 

결과표를 보면

 

독립변수 회귀계수 t 값 p 값
통제변수1      
통제변수2      
더미A 0.12*    
더미B -0.24***    
더미C 0.07    
F 값 27.443***    

 

 

여기서 더미A의 회귀계수의 해석은 A비료를 처방한 경우와 (B,C,D) 비료를 처방한 경우 A비료를 한 경우 유의적으로 산출량이 늘었다는 것이고요. 더미C의 경우도 C비료를 처방한 경우와 (A,B,D) 비료를 처방한 경우 비교하면 C비료를 처방한 경우가 늘었지만 유의하지는 않았다는 것입니다. 더미B의 경우 B 비료를 처방한 경우와 (A, C, D) 처방한 경우 B 비료를 처방한 경우가 산출량이 훨씬 적었다는 이야기입니다. 물론 통제변수의 영향을 제거한 이후이겠지요.

 

앞에서 이야기한 공변량 분석과 개념이 다르죠. 공변량 분석은 비료 A, B, C, D를 투입했을 경우 산출량에서 차이가 있는지 없는지 보는 것이고요, 좀 더 정확하게 어디서 차이가 있는지 보려면 사후검증을 보셔야 합니다.

 

하여간 회귀분석 이야기는 제가 이해가 안되고요. 회귀분석에서 왜 상관계수가 나오는지 이것도 이해가 안되고요. 아마 더미변수의 회귀계수를 이야기하는 것 같습니다.

 

 

그래서 기본적으로 가설이 다릅니다.

 

공변량에서는

 

귀무가설: 4개의 비료간의 산출량 차이가 없다.

대립가설: 4개의 비료간에 최소한 어디선가 차이가 있다.

 

이렇게 되고요.

 

회귀분석의 경우 더미A에 관한 가설은

 

귀무가설: 비료 A와 나머지 비료, (B, C, D)와 산출량에서 차이가 없다.

대립가설: 비료 A와 나머지 비료, (B, C, D)와 산출량에서 차이가 있다.

 

아마 회귀분석으로 공변량 분석과 비슷한 결과를 얻으시려면 SPSS에서 단계별로 넣는 분석을 하시면 될 겁니다. 1단계에서 통제변수와 공변량 변수를 넣고 2단계에서는 앞의 3개의 더미변수를 넣고 SPSS 메뉴에서 R제곱 변화량을 체크하면 더미A, 더미B, 더미C 추가에 따른 F 검증 결과를 보여 줍니다. 이게 공변량에서 나온 분산분석 결과랑 아마 비슷할 겁니다. 확신을 못하겠네요.

 

이게 이론적으로 다중 추론의 문제라고 하는데 조금 골치 아픈 문제입니다.

 

일반적인 회귀분석에서도 흔히 t 검증을 하는데 결과에 F 검증도 나옵니다. 그런데 이 F 검증을 잘 이해를 못하는 것 같습니다. 이것도 가설을 정확하게 이해를 해야 합니다.

 

F 검증은

 

귀무가설: 회귀분석에 들어간 모든 독립변수의 회귀계수는 0이다. 즉 독립변수 모두 종속변수에 영향이 없다.

 

대립가설: 회귀분석에 들어간 독립변수 중 최소한 하나는 회귀계수가 0이 아니다.

 

이렇게 되고요.

 

t 검증은

 

귀무가설: 해당 독립변수의 회귀계수는 0이다.

대립가설: 해당 독립변수의 회귀계수는 0이 아니다.

 

정확하게는 해당 독립변수가 종속변수에 영향을 미친다가 아니라 다른 독립변수가 들어간 상태에서 추가로 투입된 독립변수가 영향력이 있다. 이렇게 해석이 됩니다.

 

이게 왜 잘 이해가 안되는가 하면 사회계열 교수들이 통계학 기초를 제대로 배우지 않아서 이런 현상이 일어나는 것입니다.

 

가설에는 귀무가설과 대립가설이 있는데 사회과학 논문에서는 무조건 대립가설만 적거든요.

 

더구나 웃기는게 학술 연구라는 것이 새로운 것을 발견하는데 의미가 있는데 따라서 귀무가설은 기존에 널리 알려진 이야기, 상식적으로 맞는 이야기를 놓고 대립가설은 이에 반대되는 것을 놓아야 하거든요.

 

그런데 이걸 반대로 하고 있다는 것이죠. 기존의 인식을 바꾸는 논문 결과가 나오면 좋은데 이렇게 하면 통과되는 논문이 거의 생기지가 않죠. 그래서 대립가설에 뻔한 사실을 놓고 이게 검증되었다고 논문 결과를 내놓으니 논문은 잘 통과하지만 이건 알아도 몰라도 아무런 의미가 없는 논문이라는 것이죠.

 

예를 들면 상식적으로 소득이 늘면 소비가 늘죠. 이걸 회귀분석을 하면

 

귀무가설: B>0, 대립가설: B<0

 

이렇게 해야 되는 것이죠. 그런데 실제로 해보면 회귀계수가 절대로 음수가 나올 수 없죠. 해보나 마나죠. 그러니까 대립가설: B>0 이런 뻔한 가설을 세우고 이게 검증되었다고 논문이 통과된다는 것이죠.

 

이게 사실은 뻔한 것은 아닙니다.

 

예를 들어 소득이 늘면 소비가 느는 것은 당연하지만 소비성향은 어떻게 되는지 모르거든요. 그럼 독립변수는 소득을 놓고 소비성향은 종속변수로 놓고 회귀분석을 한다는 것이죠.

 

그럼 자신이 없으면 귀무가설: B=0, 대립가설: B는 0이 아니다. 이렇게 놓고 회귀분석을 할 수 있습니다.

 

이건 매우 중요한 주제입니다. 소득성장정책의 핵심적인 내용입니다. 부자들은 소득이 아무리 늘어도 상대적으로 소득증가에 비해 소비증가는 매우 낮습니다. 그러나 저소득자는 소득이 늘어나면 거의 다 소비로 전환이 됩니다. 그래서 소비를 통해 경제성장을 이루려고 하면, 또는 경제를 살리려고 하면 저소득층에게 소비가 많이 가도록 하는 정책을 펴야 합니다. 이게 소득성장정책의 핵심입니다.

 

 

또 다른 예도 있습니다.

 

기업이 이익을 늘면 투자가 늘어난다. 이건 상식적으로 맞은 이야기일수 있습니다. 그러나 그렇지 않을 수도 있습니다. 주주배당을 늘린다든지, 아니면 나중의 경기 불황에 대비해 현찰로 가지고 있을 수 있습니다.

 

반대의 경우도 있습니다.

 

기업의 불황일수록 투자를 늘릴 수도 있습니다. 삼성 반도체 신화이죠. 반도체 시장의 경기 변동을 노리는 것이죠.

 

 

1. 가설 검증

 

한 김에 조금 더 설명을 하죠.

 

 

가설은 귀무가설과 대립가설이 있다고 했는데 이것도 2가지 형태가 있습니다. 한쪽 가설, 또는 단측가설과 양쪽 가설, 또는 양측가설이 있습니다. one-sided, two-sided 이렇게 쓰죠. 앞에 부등호가 있으면 한쪽 가설이고 0이다 아니다 이렇게 되면 양쪽 가설이 됩니다.

 

 

이런 가설에 따라 검증의 형태가 달라집니다. 검증은 한쪽 꼬리 검증, 또는 양쪽 꼬리 검증 이렇게 나닙니다. one-tail, two-tail 이렇게 쓰죠.

 

가설이 한쪽이면 검증이 한쪽 꼬리 검증이 되고, 가설이 양쪽이면 검증이 양쪽 꼬리 검증이 되는 것은 아닙니다.

 

이건 가설에 따라 통계 이론에 맞춰 검증 통계량을 구하고 여기에서 어떻게 검증을 할 건가 하는 이론적 절차에 따라 다른 것입니다.

 

통상 검증통계량이 정규분포나 t 분포 같이 대칭적인 분포인 경우 양쪽 꼬리 검증이 되고, 카이제곱이나 F 분포 같이 한쪽으로 기울어진 경우는 한쪽 꼬리 검증이 됩니다.

 

그러나 꼭 그렇지는 않습니다. 예를 들어

 

대립가설: 소득이 늘면 소비가 는다.

 

하고 회귀분석을 한 경우 SPSS 결과 보면 t 값이 나오고 p 값이 나옵니다. 이 가설의 경우 한쪽 꼬리 검증을 해야 하는데 SPSS 결과물은 양쪽 꼬리 검증의 p 값을 구해서 내 줍니다. 그래서 SPSS 결과물에 따라 논문을 제출하면 원래는 틀린 겁니다. 그런데 이런 것 누가 신경쓰나요.

 

 

 

2. 가설 검증과 신뢰구간

 

이것도 참 사람들이 많이 헷갈리는 부분인데요. 가설검증과 신뢰구간은 전혀 다른 이론인데 이걸 마치 같은 것처럼 쓰는 분들이 많습니다. 유의수준 95% 이런 말은 없습니다. 유의수준 0.05 이렇게 사용해야 합니다.

 

왜 이렇게 착각을 많이 하는가?

 

여기서 제가 자주 이야기했는데요. 통계학에서 주류학파가 있고, 이 주류학파에서 진짜 주류가 있고 약간 비주류가 있습니다.

 

통계 추론은 크게 추정과 가설검증 이렇게 2개로 나눌 수 있는데

 

추정에서는 주류는 최소분산추정량(MVUE)을 구하는 것이 목적입니다. 그러나 이게 잘 안됩니다. 가장 간단한 것 밖에 못 구하고 단순한 회귀분석에서도 못 구합니다.

 

그래서 나온 것이 주류 중에 비주류인 Fisher의 최대우도추정량이라는 것입니다. MLE라는 것이죠. 이건 확률분포식만 알면 구할 수 있습니다.

 

그러나 이것도 잘 안되는 경우가 많습니다. 그래서 다양한 수치해석적 방법들이 동원됩니다. 여기에 자주 나오는 EM알고리즘, 잭나이프, 부트스트랩, 아니면 Gibbs sampler, 지난번 알파고에서 나온 MCMC라든지 이런 다양한 수치해석적 방법론이 등장합니다.

 

최근 안철수 딸이 엄청난 업적을 남긴 논문을 발표했다고 하는데 이것 한 것입니다. 수치해석 작업을 한 것에 불과합니다. 이게 미국 bio쪽에서 엄청 발달했거든요. 미국 통계학과는 거의 다 bio쪽으로 돌았습니다. 거기서 돈이 나오니까요. 이제는 아마 인공지능쪽으로 많이 바뀔 것 같은데요.

 

가설 검증도 마찬가지입니다. 원래 주류는 UMPT라는 것을 발견하는 것이 목적인데 이것도 잘 안됩니다. 그래서 Fisher 쪽에서 만든 확률분포만 알면 할 수 있는 LRT 라는 방법을 내세웁니다. 그런데 이것도 잘 안되는 경우가 많거든요.

 

그래서 사람들이 생각해 낸 것이 신뢰구간 이론을 이용하는 것입니다. 대부분 표본 수가 커지면 통계량이 중심극한 정리에 의해 정규분포를 하게 됩니다. 그래서 정규분포의 신뢰구간 구하는 것을 가설 검증에 도입하는 것입니다.

 

어떻게 보면 가설검증과 신뢰구간 구하는 것이 동전의 양면의 모양이거든요.