회귀분석/회귀분석,Regression

통제변인, 공변인, 공변량분석2

학위논문통계 2022. 10. 14. 16:20

1. 통제변수 추가

 

 

회귀분석을 할 때 독립변수 X가 유의적인 영향력이 나와야 하는데 아깝게 p=0.065로 유의수준 0.05에서 유의하지 않았다고 해보죠.

 

이럴 경우 인구통계 변인을 통제변수로 넣으면 종종 독립변수 X가 유의적으로 나올 수 있습니다. 교묘하게 조작을 하는 것이죠.

 

이 경우 원래 통제변수의 정의에 따라 인구통계 변인 중 종속변수 Y와의 관계가 깊은 변수를 넣어야 합니다. 즉 상관계수 분석이나 분산분석 결과를 보고 종속변수 Y와 밀접한 관계가 있는 인구통계 변인을 통제변수로 넣어야 하는 것이 원칙입니다.

 

그러나 이렇게 원칙적으로 넣으면 오히려 결과가 더 안좋게 나오는 경우가 많습니다. 즉 독립변수 X의 p 값이 더 커지는 경우가 많습니다.

 

그러나 종속변수 Y와 전혀 상관이 없는 인구통계 변인을 넣으면 p값이 떨어져 독립변수 X가 유의적인 영향력이 있는 것으로 나오는 경우가 종종 생깁니다. 이 경우 자유도가 변해서 그런 것입니다.

 

회귀분석 결과에서 p 값을 결정하는 중요한 원칙이 있습니다.

 

1)

 

표본 수가 증가하면 p 값이 작아집니다. 그래서 가능하면 유의적인 결과가 나오게 하려면 설문을 많이 받으면 좋습니다. 예를 들어 윤석열 지지율을 조사하는데 10명 조사하면 지지율이 5% 상승하나 하락하나 사람들은 그 결과를 믿지 못합니다. 따라서 5% 상승이나 하락이라도 그 상승이나 하락이 유의하지 않다고 나옵니다.

 

그러나 만명, 십만명, 천만명 조사하면 1% 지지율 증가나 하락도 실제로 지지율이 증가하였다 또는 하락하였다고 믿습니다. 실제 통계 분석 결과도 1% 변화도 유의적으로 나옵니다.

 

 

2)

 

독립변수가 많아지면 p 값이 점점 커집니다. 종속 변수 Y에 영향을 미치는 변인은 무수히 많습니다. 이때 독립변수의 수를 증가하면 종속변수 Y에 영향력이 점점 더 쪼개져 분산이 되어 버립니다. 따라서 특정 독립변수의 영향력은 유의하지 않게 되어 버립니다.

 

예를 들어 상관계수 분석은 독립변수가 하나인 회귀분석의 결과와 일치합니다. 즉 상관계수 분석은 단순회귀분석이라 생각하시면 됩니다. 그러나 연구모형에 있는 회귀분석 모형은 대부분 독립변수가 여러 개 들어가는 다중회귀분석 모형입니다. 상관계수 분석에서는 종속변수와 전부 다 유의적인 상관관계가 있는 것으로 나오지만 연구모형의 다중회귀분석을 돌리면 유의하지 않는 독립변수가 자주 나옵니다.

 

실제 다중회귀분석을 한 결과 모형에 들어간 독립변수 전부 다 유의적으로 나오면 이건 논문조작에 가깝다고 보시면 됩니다.

 

 

3)

 

2)의 경우 독립변수의 수를 증가시킬 때 유의확률 p 값에 미치는 부정적 영향을 이야기한 것인데 오히려 긍정적인 경우도 있습니다. 독립변수를 중가하면 t 검증에서 자유도를 변화시켜 p 값을 떨어뜨리는 긍정적인 효과도 있습니다. 앞에서 이야기한 종속변수와 전혀 무관한 인구통계 변인을 통제변수로 막 집어 넣었을 때 이와 같은 긍정적인 효과가 일어 납니다.

 

 

 

2. 일반선형모형과 분산분석

 

회귀분석과 달리 일반선형모형은 분산분석이 연구 목적인 경우에 사용합니다. 회귀분석은 주로 연속형 변수가 독립변수인 경우 사용하는 반면 일반선형모형의 독립변수는 범주형 자료를 사용합니다. 단 연속형 변수가 통제 변수로 사용해야 하는 경우 공변인(corvariate)도 독립변수로 넣어서 분석을 합니다. 이 경우 흔히 공변량 분석이라고 합니다. 꼭 연속형 변수일 필요는 없습니다. 연령 같이 순위형 변수도 공변인으로 넣어도 됩니다.

 

구체적인 예를 들어보죠.

 

1) 일원 분산분석

 

어떤 다이어트 요법(treatment) A가 효과가 있는지 검사하기 위해 A 요법을 전혀 실시하지 않는 집단, 즉 통제집단의 체중을 조사하고, 한 집단에는 다이어트 요법을 실시한 다음 체중을 조사합니다.

 

그럼 일원 분산분석은

 

Y=u+a+e

 

이렇게 됩니다. a는 특정 다이어트 요법 A의 효과를 말합니다. u는 전체 몸무게 평균이 되고요. e는 알 수 없는 오차항입니다.

 

이 경우 데이타에 집단이라는 변수를 만들어 통제집단은 0, 실험집단은 1로 이진 더미 변수를 만든 후 SPSS에서 Analysis==> compare means 하시면 일원분산분석 결과를 도출해 줍니다.

 

그러나 이 경우 좀 심각한 문제가 생깁니다. 통제집단이나 실험집단을 뽑을 때 상당히 많은 사람을 랜덤하게 뽑으면 어느 정도 다이어트 효과 결과를 믿을 수 있지만 이런 실험에서는 사람 뽑기가 쉽지 않습니다.

 

그래서 이런 경우 사전의 사람들의 체중도 같이 측정합니다. 그리고 실험 후 사람들의 체중도 잽니다. 즉 실험 후 사람들의 체중은 실험 전의 그 사람의 체중에 상당한 영향을 받는다고 생각하는 것이죠. 그래서 사전 사람들의 체중을 공변인으로 넣는 것입니다. 그럼 연구모형 식은

 

사후 사람들이 몸무게 Y=b0+b1*사전 사람들이 몸무게+a+e

 

이렇게 변합니다. 즉 다이어트 A 처치를 효과를 보는데 사전의 사람들의 몸무게가 사후 사람들의 몸무게에 영향을 미치니까 이 사전 몸무게의 영향력을 배제하기 위해서 독립변수에 공변인으로 집어 넣은 것입니다. 이 방법을 공변량분석이라 한다는 것이죠.

 

위 식을 약간 변형시키면 더 이해가 쉽게 될 것입니다. b1=1이라고 하면 위 식을 변형시키면

 

(사후 몸무게-사전 몸무게)=몸무게 변화=b0+a+e

 

이렇게 됩니다. 즉 몸무게의 변화에서 다이어트 A의 효과가 있는지 알아보는 것입니다.

 

 

이런 문제는 3가지 방법으로 처리합니다.

 

첫째가 아주 옛날에 한 방법으로 사전동질성 검사를 한 후 사전동질성 검사가 통과되면 사후 몸무게만 가지고 실험의 효과를 측정합니다. 지금은 거의 하지 않는 방법입니다.

 

둘째가 위에서 설명한 공변량 분석을 하는 것입니다.

 

마지막 세 번째 방법은 이원분산분석을 하여 상호작용항을 보는 것입니다. 두 번째 방법과 결과가 정확하게는 일치하지는 않겠지만 아마 거의 유사한 결과가 도출됩겁니다.

 

 

 

그래서 단순한 일원 분산분석의 경우 comppare means를 하면 되는데 이 경우라도 공변인이 있거나 아니면 요인이 2개 이상인 분산분석의 경우 SPSS에서 일반선형모형(GLM: general linear model)을 이용해야 합니다.

 

그럼 다음 글에서 이원분산분석을 설명하겠습니다. 이원분산분석은 상호작용항을 이해하는 것이 가장 중요합니다. 이원 분산분석을 해도 상호작용항이 없다면 그냥 일원분산분석을 2번 하는 것과 별 다르지 않습니다.

 

이원분산분석에서 상호작용효과는 흔히 사회과학에서 많이 사용하는 조절효과와 의미가 거의 같습니다.

 

이것은 다음에 쓰겠습니다.