혼합모형(Mixed Model)

범주형 자료처리:이원분산분석, 조절효과

학위논문통계 2021. 12. 19. 09:15

0.

 

지난번까지는 1원 분산분석의 경우 compare means를 사용할 수 있고, 아니면 일반선형모형(general linear model)을 사용할 수도 있고, 아니면 범주형 자료를 이진더미변수로 만들어 회귀분석을 사용하여 분석할 수도 있다고 이야기를 했습니다.

 

또 분산분석을 할 경우 통제변수가 있으면 이 경우는 일반선형모형에서 통제변수를 공변량으로 넣거나 아니면 회귀분석시 그냥 독립변수로 넣어서 취급하면 된다고 이야기했습니다.

 

오늘은 2원 분산분석시 어떻게 하는가를 이야기하고, 또 하나는 흔히 논문에서 사용하는 Baron & Kenny(1986)의 조절효과를 보는 경우에 대해서 설명하겠습니다.

 

다음에는 혼합모형으로 넘어가서 지금까지 이야기와 어떻게 다른지 설명하겠습니다.

 

 

1. 2원 분산분석

 

SPSS에서는 compare means는 일원 분산분석밖에 안되기 때문에 이원분산분석은 당연히 general linear model에서 해야 합니다.

 

이원분산분석의 경우 상호작용항이 있기 때문에 조금 복잡합니다.

 

지난번 경우처럼 종속변수:사회혼란 인식, 이원분산의 2 요인: 성별과 종교, 통제변수:연령으로 잡겠습니다. 그래서 모형은

 

사회혼란인식=c0+c1*연령+a(i)+b(j)+ab(ij)+오차항

 

이런 식으로 되고 성별 a(i), 연령 b(j), 성별과 연령의 상호작용항 ab(ij)가 사회혼란인식을 설명하는데 유의적인가를 알아보는 모형입니다.

 

 

SPSS을 돌릴 때 model은 그냥 놔두고, option에서 parameter estimate를 체크하면 회귀분석시 결과물이 나옵니다. 결과물을 한번 보죠.

 

위의 결과물이 이원분산분석의 분산분석표입니다. 회귀분석 결과를 원하지 않으면 통상 이 결과만 나옵니다. 그럼 종교에서는 p=0.001이기 때문에 종교에 따라 사회혼란인식에서 유의적인 차이가 있고, 성별은 p=0.071이기 때문에 유의수준 0.05에서는 성별에 따라 사회혼란인식에서 유의적인 차이가 없다고 해석이 됩니다. 그리고 성별과 종교의 상호작용항에서는 p=0.265로 이것도 유의하지 않습니다. 즉 성별과 종교의 상호작용효과는 없다고 나옵니다. 남자나 여자나 종교에 따른 사회혼란인식에 비슷하게 움직인다고 보면 됩니다.

 

아래 표는 회귀분석표인데 성별을 보면 p=0.039로 유의수준 0.05에서 유의적인 차이가 있다고 나옵니다. 위의 분산분석표와 조금 다른 결과입니다. 이건 상호작용항의 처리 때문에 생기는 현상입니다.

 

 

상호작용항의 해석은 이렇게 하시면 됩니다.

 

[종교=1]*[성별=0]의 회귀계수 값은 -0.919, [종교=1]*[성별=1]의 회귀계수 값은 0입니다. 즉 기독교인의 경우 성별=1인 여자의 경우보다 성별=0인 남자의 경우가 사회적혼란 인식이 -0.919 낮다는 것이고 이건 p=0.111로 유의한 차이는 아닙니다.

 

종교=2, 즉 불교 신자의 경우 [종교=2]*[성별=0]의 회귀계수 값은 -0.649, [종교=2]*[성별=1]의 회귀계수 값은 0입니다. 즉 불교신자의 경우 성별=1인 여자의 경우보다 성별=0인 남자의 경우가 사회적혼란 인식이 -0.649 낮다는 것이고 이건 역시 p=0.196으로 유의한 차이는 아닙니다.

 

무교의 경우는 남녀간의 사회혼란인식의 차이는 알 수가 없습니다. 이것을 알려고 이리 저리 시도를 해보시면 다중공선성 문제로 회귀분석 자체가 아예 돌지가 않습니다.

 

 

이와 같이 요인이 2개인 경우 상호작용항이 생겨 문제가 매우 복잡해집니다. 그러나 아래에 회귀분석 결과물이 나왔듯이 일원분산분석에서 이진더미변수를 만들 듯이 실제로 데이터에서 상호작용항을 나타내는 변수를 만들어 회귀분석을 돌리면 일반선형모형에서 나오는 위의 결과와 똑같은 결과물을 만들 수 있습니다.

 

상호작용항의 데이터를 어떻게 만드는지는 고급통계학 책을 사서 보셔야 합니다. 저는 학부때 Sheffe의 ANOVA책을 통해 배우기는 했는데 너무 오래전 이야기라 잘 기억이 안납니다. 시도하면 별 어렵지는 않을 겁니다.

 

 

이쪽에는 Simpson의 paradox라는 유명한 문제가 있습니다.

 

분석 결과가 우리가 일반적으로 알려진 상식적인 결과와 정반대의 결과가 나올 수 있습니다. 이걸 올바르게 해석을 하려면 요인 하나를 더 추가해서 생각을 해야 합니다.

 

대표적으로, 백인이 살인죄로 유죄를 받을 확률이 흑인이 살인죄로 유죄를 받을 확률보다 더 높게 나옵니다. 실제 데이터 분석에서 나온 예이고 매우 유명한 사례입니다. 이건 우리가 흔히 알고 있는 흑백 인종차별하고 전혀 반대인 현상이죠.

 

이걸 정확하게 이해를 하려면 피해자의 인종이라는 또 다른 요인을 고려를 해야 합니다. 즉 백인이 백인을 많이 살해를 하는데 그래서 전체적으로 백인이 살인죄로 유죄를 받을 확률이 높은 것입니다.

 

흑인이 백인을 살해하면 거의 100% 유죄, 백인이 백인을 살해하면 약간만 유죄, 그러나 백인이 백인을 살해하는 사례가 매우 많다는 것입니다.

 

 

또 다른 예로 타자 A와 타자 B가 있으면 타자 A가 좌투수나 우투수 대상으로 타자 B보다 타율이 높게 나옵니다. 그러나 전체 타율을 보면 타자 B가 타자 A보다 타율이 높게 나오는 현상을 들 수 있습니다.

 

 

 

2. 조절효과 검증

 

흔히 조절효과를 보는 논문들 보면 1단계부터 3단계까지 단계별 회귀분석을 하는데 이렇게 복잡하게 할 필요가 없고 마지만 상호작용항이 들어 있는 3단계만 하면 됩니다. 사회과학 학계에서 쓸데없는 짓을 하고 있는 것이죠.

 

조절변수가 연속형 변수인 경우 그냥 연속형 변수를 사용해도 되지만 이걸 평균을 중심으로 평균 이하=0, 평균 이상=1로 이진더미변수로 만들어 조절효과를 봐도 됩니다. 해석은 이렇게 하는 경우가 이해가 쉽게 됩니다.

 

문제는 종교와 같이 명목형 변수인데 성별처럼 이진변수가 아니고 범주가 3개 이상인 경우 어떻게 처리하는가 하는 문제입니다.

 

 

조절효과의 모형식은 다음과 같이 됩니다. 독립변수는 연령을 놓고, 조절변수를 명목형 변수인 종교로 하죠. 즉 연령이 높을수록 사회혼란인식이 높아질거라 보고 이 현상이 자신이 믿는 종교에 따라 조금씩 차이가 있을 거라고 보는 것입니다. 그럼 모형은

 

 

사회혼란인식 Y=b0+b1*연령+b2*종교+b3*연령*종교

 

이렇게 됩니다. 그럼 종교를 앞에서 한 바와 같이 (기독교, 불교)라는 2개의 이진더미변수를 만들어 해보죠. 그럼 위의 식은 다음과 같이 됩니다.

 

사회혼란인식 Y=b0+b1*연령+b2*종교+b3*연령*종교

=b0+b1*연령+b21*기독교+b22*불교+b31*연령*기독교+b32*연령*불교

=(b0+b21*기독교+b22*불교)+(b1+b31*기독교+b32*불교)*연령

 

 

그래서

 

종교=3인 무교의 경우 (기독교, 불교)=(0,0)이기 때문에

 

사회혼란인식=b0+b1*연령

 

 

종교=1인 기독교의 경우 (기독교, 불교)=(1,0)이기 때문에

 

사회혼란인식=(b0+b21)+(b1+b31)*연령

 

 

종교=2인 불교의 경우 (기독교, 불교)=(0,1)이기 때문에

 

사회혼란인식=(b0+b21)+(b1+b32)*연령

 

 

조절효과는 기울기의 회귀계수 값을 비교하는 것이기 때문에 기울기만 보면

 

무교는 b1, 기독교는 b1+b31, 불교는 b1+b32

 

가 됩니다.

 

 

그래서 SPSS에서 작업을 하려면 실제 데이터에서 종교는 2개의 이진더미수로 만들고, 그리고 독립변수인 연령과 곱하기를 한 상호작용항 변수 2개를 더 만든 다음 연령, 2개의 종교 이진더미 변수, 그리고 2개의 상호작용항 변수를 전부 다 회귀분석의 독립변수로 투입한 다음 돌리시면 됩니다.

 

그래서 b31인 유의적으로 나오면 무교와 기독교 신자간의 유의적인 조절효과가 있다고 보고, b32가 유의적으로 나오면 무교와 불교 신자간의 유의적인 조절효과가 있다고 보시면 됩니다.

 

그러나 기독교 신자와 불교신자간에 유의적인 조절효과가 있는지는 알 수가 없습니다.

 

 

예를 들어 이런 경우도 생길 수가 있습니다. b31, b32 모두 유의적이지 않게 나왔습니다. 즉 무교와 기독교 신자간, 또 무교와 불교 신자간에 기울기에서 뚜렷한 차이가 없는 것으로 나왔습니다. 이럴 경우라도 기독교 신자와 불교 신자간에는 뚜렷한 차이가 날 수 있습니다. 아래 그림의 그 예입니다.

 

무교와 불교간에 기울기 차이는 별로 없고, 무교와 기독교간에 기울기 차이는 별로 없지만 불교와 기독교간의 기울기 차이는 꽤 있다고, 즉 조절효과가 유의적로 나올 수 있습니다.