Baron & Kenny 매개,조절효과/조절효과

다범주 명목형 조절변수의 조절효과에 대해

학위논문통계 2021. 2. 8. 13:55

오늘은 조절변수가 범주형 변수인데 범주 수가 성별과 같이 이진 더미 변수가 아니고 범주가 3개 이상인 경우 조절효과 분석을 어떻게 하는가에 대해서 이야기하겠습니다. 즉 종교라는 범주형 변수가 기독교, 불교, 무교 이렇게 3개의 범주로 되어 있으면 조절변수 분석하는 방법이 좀 복잡해집니다.

 

범주가 3개 이상이라도 연령, 학력, 직급 같은 변수는 순서가 있는 순위형 변수이기 때문에 이 변수는 그냥 연속형 변수처럼 취급하여 처리하는 것이 더 좋습니다. 그러나 종교의 경우 순서나 순위, 우월 이런 개념이 없거든요. 즉 명목형 변수라는 것이죠. 이 경우는 작업하기가 좀 복잡하다는 것이죠.

 

 

1. 회귀분석 블록 설정 다단계 회귀분석 이해

 

 

먼저 이 작업을 하기 전에 조금 기본적인 이론을 설명하겠습니다. 흔히 조절효과 분석을 한다고 하면 SPSS에서

 

분석==> 회귀분석 ==> 선형 ==> 블록을 선택해서

 

1단계 블록은 독립변수 X1, X2, X3을 넣고, 2단계에서는 추가로 조절변수 M을 넣고 마지막 3단계에서는 조절효과를 보기 위해 독립변수 X와 조절변수 M의 곱하기 항인 상호작용항 X1*M, X2*M, X3*M을 넣습니다. 그리고 통계량 메뉴에서 R2 변화량을 체크하면 됩니다.

 

 

그런데 구태여 이렇게 할 필요가 있을까요. 그냥 회귀분석 3번을 돌리면 되지 않을까 하는 생각이 들 수 있습니다. 이렇게 회귀분석 3번 돌리는 것과 흔히 하는 3단계 회귀분석 돌리는 것과 무슨 차이가 있을까요.

 

아무런 차이가 없습니다. 단지 회귀분석을 3번 돌리는 경우와 다른 것은 설명력 증가가 유의한지 아니지에 대해 F 검증값을 구할 수가 없다는 것만 차이가 있습니다. 여기에 대해 간단히 설명을 드리겠습니다.

 

 

원래 회귀분석을 돌리면 흔히 이야기하는 설명력을 나타내는 R2값과 F 값을 구해줍니다. R2은 구조방정식의 적합도 개념입니다. 모형이 현실의 데이터 값에 가까우면 이 R21에 가깝게 가고 그러면 설명력이 좋다고 합니다. R2=0.5 이면 모형의 독립변수들이 종속변수 Y의 변동, Y 분산의 50% 설명한다고 이야기합니다.

 

그럼 F는 무엇일까요. 이건 모형의 유의성을 검증하는 것입니다. 좀 더 구체적으로 이야기 해 보겠습니다.

 

모형은

 

Y=b0+(b1X1+b2X2+b3X3)+(b4M)+(b5X1M+b6X2M+b7X3M)

 

입니다. 이걸 그냥 회귀분석을 돌리면 F 검증값이 나옵니다. F 검증은 무슨 가설을 검증하는가 하면

 

귀무가설 H0: b1, b2,..., b7 모두 0이다.

대립가설 H1: b1, b2,..., b7 증 최소한 하나는 0이 아니다.

 

흔히 사회과학에서 쓰는 가설은 대립가설을 이야기합니다. F 검증에서 유의적으로 나오면 이 이야기는 위 모형의 회귀계수 b 중 하나는 0이 아니라는 이야기이고, 이 이야기는 모형의 들어간 변수 중 최소한 하나는 종속변수 Y에 유의적인, 의미있는 영향력이 있다는 이야기입니다.

 

그럼 각각 회귀분석을 세 번 돌려보죠.

 

1번째 회귀분석: 독립변수 X1, X2, X3만 넣고 돌립니다. 그럼 여기서 결정계수 R2이 나옵니다.

 

2번째 회귀분석: 독립변수 X1, X2, X3과 조절변수 M을 넣고 돌립니다. 그럼 여기서도 R2값이 나옵니다. R2값은 1번째 R2보다 항상 큰 값이 나옵니다. (2번째 R2-1번째 R2) 이 값이 조절변수 M을 추가로 투입했을 경우 설명력이 증가가 됩니다.

 

3번째 회귀분석: 독립변수 X1, X2, X3과 조절변수 M, 상호작용 X1M, X2M, X3을 다 넣고 회귀분석을 돌립니다. 그럼 여기서도 R2값이 나옵니다. 그럼 (3번째 R2- 2번째 R2) 값은 2번째 회귀분석에서 상호작용항을 추가로 투입했을 경우 설명력의 증가가 됩니다.

 

이 과정을 블록을 설정해서 간단히 한 것입니다. 그럼 1번째, 2번째, 3번째 이렇게 독립변수를 추가로 더 넣어서 설명력이 증가했는데 이 설명력이 유의한지 이걸 보고 싶다는 것이죠. R2의 증가는 간단히 R2 빼기 해서 간단하게 구할 수 있는데 이 설명력 증가의 유의성은 구할 수가 없습니다. 물론 통계 전공한 사람은 구할 수가 있습니다. R 프로그램에서 구할 수는 있는데 시간이 걸리고 귀찮죠.

 

즉 위계적 회귀분석이라고 해서 SPSS에서 블록을 설정해 3단계 회귀분석을 돌리는 것은 기본적으로 회귀분석 3번 돌리는 것과 본질적으로 같습니다. 단지 추가 변수 투입에 대한 설명력 증가가 유의적인지 아닌지 이 dF 검증만 쉽게 해 주는 것에 불과합니다.

 

 

그럼 2단계에서 3단계로 갈 때 이 dF 검증은 무얼 말하는 것일가요.

 

2단계 모형: Y=b0+(b1X1+b2X2+b3X3)+(b4M)

 

3단계모형: Y=b0+(b1X1+b2X2+b3X3)+(b4M)+(b5X1M+b6X2M+b7X3M)

 

그럼 여기서 dF는 무얼 검증하는 것일가요.

 

귀무가설 H0: b5, b6, b7은 모두 0이다.

대립가설 H1: b5, b6, b7 중 하나는 0이다.

 

이 가설을 검증하는 F 검증입니다.

 

 

 

 

2. 다범주 명목형 조절변수인 경우

 

앞에서 이야기했지만 이진변수가 아니고 다범주 변수이라도 연령, 학력, 소득, 직급 등 순위가 있는 순서형 변수는 그냥 하나의 연속형 변수로 처리하는 것이 더 낫습니다.

 

그러나 종교와 같이 순위나 순서 개념이 없는 명목형 변수인 경우 이 경우 회귀분석을 할 때 조금 골치 아픈 작업을 해야 합니다.

 

예를 들어 종교가 무교, 기독교, 불교 이렇게 3개의 범주로 되어 있다고 하죠. 그럼 이 경우 2개의 이진 더미 변수를 만들어야 합니다. 예를 들어 보죠.

 

무교=(D1, D2)=(0,0)

기독교=(D1, D2)=(1,0)

불교=(D1, D2)=(0,1)

 

이렇게 코딩해야 합니다. 잘 이해가 안되죠.

그럼 실제 데이터 모양에서 설명을 해보죠. 종교에서 무교는 1, 기독교는 2, 불교는 3으로 코딩되어 있다고 하죠.

 

종교

D1

D2

1

0

0

1

0

0

2

1

0

3

0

1

3

0

1

2

1

0

1

0

0

2

1

0

3

0

1

.

 

 

.

 

 

 

 

이렇게 코딩을 해야 합니다. 그럼 이진 더미 변수 D1은 어떻게 해석일 될까요. 자세히 보면 기독교 경우 1로 코딩하고, 무교나 불교는 0으로 코딩되어 있습니다. 그래서 D1는 기독교인가 아닌가 하는 이진변수이고요. 마찬가지로 D2는 자세히 보면 불교인가 아닌가 하는 이진변수입니다.

 

 

그래서 일반적인 회귀분석에서 독립변수로 다범주 명목형 변수를 넣을 경우 위와 같이 여러개 더미변수로 넣어야 하고 이건 조절효과 볼 때도 같이 적용이 됩니다.

 

 

Y=b0+(b1X1+b2X2+b3X3)+(b4M)+(b5X1M+b6X2M+b7X3M)

=b0+(b1X1+b2X2+b3X3)+(b41*D1_b42*D2)+(b51X1*D1+b61X2*D1+b71X3*D1)+(b52X1*D2+b62X2*D2+b72X3*D2).

 

 

복잡하죠. 조절변수를 몇 개의 더미 변수를 만들어야 하고 또 이걸 독립변수와 일일이 다 곱해야 하고요.

 

 

좀 쉽게 하는 방법이 없을까요?

 

분석==> 일반선형모형==> 일변량을 선택한 다음

 

명목형 다범주 변수는 고정요인(F), 독립변수 연속형 변수는 공변량(C)에 선택하고 모형 메뉴를 선택한 다음 여러분이 주효과(2단계)와 상호작용효과 항(3단계)을 일일이 지정을 하면 됩니다. 그럼 SPSS에서 내부에서 자동적으로 더미변수화를 하여 위의 문제를 다 해결해 줍니다.

 

 

이 경우 해석을 어떻게 하는가 이런 것은 음... 써 봐야 여러분들 골치만 더 아플 것 같아서 이건 그냥 나두죠. 하여간 여기서도 여러분이 분산분석 할 경우 나오는 사후검증의 문제가 다시 나옵니다.

 

궁금하신 분들은 댓글로 남겨 주세요.