Baron & Kenny 매개,조절효과/매개효과

매개효과 검증 Sobel 검증

학위논문통계 2014. 6. 19. 02:24

매개효과 검증하는 것 중 Soble z 검증이라는 것이 있습니다. 이게 왜 필요한지 이야기를 해 보겠습니다.

 

 

다음 그림은 매개변수가 들어가 있는 모형입니다.

여기서 매개변수는 한편으로는 독립변수에 대해 종속변수 역할을 하고 마지막 종속변수에 대해서는 독립변수 역할을 합니다. 그래서 실제로 두 개의 회귀분석을 해야 합니다. 즉, 독립변수==> 매개변수, 매개변수==>종속변수 관계를 규명하는 회귀분석 두 개를 해야 한다는 것이죠.

 

 

그럼 회귀계수 a와 b는 무슨 의미를 가지는 것일까요?

 

 

회귀계수 a와 b는 우리가 아는 직선 식에서 기울기와 같은 의미입니다.

 

 

대강이야기 하면 a는 독립변수 한 단위가 상승할 때 매개변수가 a 단위 상승한다는 것이고요, b는 매개변수 한 단위가 상승할 때 종속변수가 b 단위 상승한다는 것입니다. a나 b가 음수이면 실제 의미는 하락한다는 이야기겠죠. 이때 단위는 통상 사회과학에서는 Likert 척도의 한 단위를 말합니다. 표준화의 경우는 단위는 시그마입니다. 즉 독립변수가 1시그마 상승할 때 매개변수가 a 시그마 상승한다 이렇게 해석됩니다.

 

 

그럼 매개변수 효과는 뭘 이야기하는 것일까요? 매개효과는 독립변수가 한 단위 상승할 때 매개변수를 걸쳐 최종 종속변수가 몇 단위 상승하는가를 보는 것입니다. 즉 a*b가 매개효과가 되는 것입니다. 이 a*b가 0이면 매개효과가 없다고 보는 것이고, 0이 아니면 매개효과가 있다고 보는 것이죠. 즉

 

 

귀무가설: a*b=0

대립가설: a*b가 0이 아니다

 

 

가 됩니다. 여기서 a가 유의적인 영향력이 있다고 나오고, 또 b도 유의적인 영향력이 있다고 나와도 a*b가 유의적이라고 할 수 없습니다. 예를 들어 a=0.2, b=0.2 이럴 경우 a*b=0.04로 거의 0에 가깝게 됩니다. 따라서 엄밀하게 검증을 해야 합니다.

 

 

그런데 이걸 검증하려면 a*b 추정량의 분포를 알아야 합니다. 그런데 이게 구하기가 쉽지 않다는 것이죠. 수학이 엄청 발달한 것처럼 보여도 실제 구하지 못하는 것이 태반입니다. 이런 경우 주로 근사치를 사용합니다. 통계학의 경우 표본 수가 크다는 전제하에 극한 분포를 사용합니다. 여기서 사용하는 방법이 델타 방법(delta method)입니다.

 

 

 

통계학에서 가장 중요한 정리가 중심극한정리(CLT:Central Limit Theory)라고 했습니다. 이게 왜 중요하나고 하면 현상의 분포의 평균이 가장 중요한 모수이고 이 경우 대부분 표본 평균으로 추정됩니다. 그런데 원 데이터가 정규분포가 아니더라도 표본수가 상당히 크면 이 표본 평균은 정규분포의 모양을 가집니다. 그래서 많이 사용된다는 것이죠.

 

 

표본평균 Tn ==> N(u, 분산) 여기서 u는 원 변수의 평균입니다.

 

 

그러면 아 표본평균의 어떤 함수의 경우는 어떻게 될까요? 예를 들어 표본평균에 지수함수를 취한 Zn=eTn 일 경우 이 Zn도 표본의 수가 커지면 정규분포로 갈까요?

 

 

네. 정규분포로 갑니다. 일반적으로 Zn=H(Tn), 즉 Tn의 어떤 함수라고 하죠. 그러면

 

 

 

 

이렇게 됩니다. 좀 복잡하죠. 그러나 증명은 생각보다 어렵지 않습니다. 통계학의 대부분의 극한 이론은 대학 1학년에서 배우는 Taylor 급수 expansion을 사용합니다. 1차항이나 2차항에서 끊어서 사용하죠. 이걸 생각하면 너무 쫄 필요 없습니다.

 

 

변수가 하나인 경우 delta 방법은 위 공식처럼 되는데 변수가 여러 개인 경우는 어떻게 될까요? 지금 a와 b의 추정량인 두 개의 통계량이 있습니다. 이 두 개의 통계량의 어떤 함수인 경우도 이 deltal 방법을 사용할 수 있습니다.

 

이것도 테일러 급수를 사용하면 됩니다. 공식은 좀 복잡하니까 생략하고요. 즉 H(X, Y)=X*Y 형태가 되고 x와 y에 대해 편미분을 하면 X*Y의 분산을 구할 수 있습니다. 그래서 나온 Sobel a*b의 공식이

 

 

a*b의 추정량은 ==> N(a*b, 분산)

 

여기서 분산은

 

 

 

 

가 됩니다. 그럼 표준화해서

 

 

z=(a*b 추정값)/s 하면 귀무가설이 사실일 때 표준화 정규분포를 하게 됩니다.

 

 

예를 들어 아래 표처럼 두 개의 회귀분석 결과물이 있다고 하죠.

 

변인

독립변수==>매개변수

매개변수==>종속변수

회귀계수

표준오차

회귀계수

표준오차

상수

독립변수

0.124

0.019

0.093

0.021

 

 

그럼 여기서 a의 추정값은 0.124, Sa=0.019, b의 추정값은 0.093, Sb=0.021 이 됩니다. 그래서 위 식에 이 값들을 대입하면 근사적인 z 값이 나오고 여기서 검증을 하면 됩니다.