실험계획/혼합모형(mixed model)

혼합모형으로 실험효과 보기1

학위논문통계 2023. 9. 25. 12:21

 

지금까지 혼합모형에 대한 글은 혼합모형이라는 것을 이해하기 위해서 쓴 글이고 현실적으로 논문 분석에 적용할 수 있는 것은 아닙니다.

 

혼합모형이 논문 분석에 사용될 수 있는 분야는 실험효과 분석하는 부분입니다.

 

인터넷에 돌아다니는 혼합모형에 관한 글은 예로서 병원, 학교, 또는 학급 같은 예로 많이들 설명하는데 이때 표본추출 방식은 군집표본으로 일반적인 논문 분석에는 맞지 않는 표본추출 방식입니다. 이런 표본추출은 많은 돈이 들어가는 정부나 기업들이 사용하는 있는 표본추출 방법입니다.

 

 

1) 흔히 실험의 효과를 볼 때 많이 사용하는 방법은 실험집단과 통제집단을 만들어 사전, 사후 값을 측정하는 것입니다.

 

집단 사전 Y1 사후 Y2
실험집단

통제집단

 

 

2) 위 방법이랑 비슷한 것 같지만 완전히 다른 실험이 있습니다. 예를 들어 혈압약 효과를 보기 위해 한 집단은 혈압약 A을 처방하고 한 집단은 혈압약 B를 처방하는 경우입니다.

 

집단 1Y1 2Y2
혈압약 A

혈압약 B

 

 

 

 

물론 1)2)의 혼합형도 있을 수 있습니다.

 

집단 1Y1 2Y2
통제집단

실험1:혈압약 A

실험2:혈압약 B

 

이건 다음에 기회가 있을 때 이야기하고요.

 

 

위의 1) 실험과 2) 실험이 비슷한 것 같지만 전혀 다른 분석입니다. 표에서도 1)의 사전, 사후 이런 말을 썼지만 2)의 경우는 1, 2차 이런 말을 썼습니다. 분산분석표 해석도 완전히 달라집니다.

 

1)의 실험의 경우 사전에는 실험집단이나 통제집단 모두 아무런 처방을 하지 않습니다. 그래서 사전에는 실험집단과 통제집단의 혈압은 서로 비슷한 값이 나와야 합니다. 사전 점수를 측정한 다음 그 다음 실험집단에는 혈압약 A를 처방하고, 통제집단은 여전히 혈압약을 투약하지 않습니다. 그래서 혈압약 A이 효과가 있다면 사후에는 두 집단의 혈압에서는 유의적인 차이가 있어야 합니다.

 

그러나 2)의 경우 두 집단에 처음부터 다른 혈압약을 처방합니다. 그래서 1)의 사전의 경우가 없습니다.

 

 

그럼 논문에 가장 많이 쓰는 1)의 경우를 조금 자세히 설명하죠.

 

1)의 경우 실험의 효과를 검증하는 방법으로 3개 정도가 있습니다.

 

(1) 사전 동질성 조사를 하고 사전에 실험집단과 통제집단이 동질하다고 나오면 사후에 두 집단간에 차이가 있는 검증하는 방법입니다. 두 집단간에 동질적이나 아니면 차이가 있는가 조사하는 것이기 때문에 t-검증을 사용하면 됩니다.

 

(2) 사전 동질성 검사에서 실패하면 어떻게 할까요. 실험 표본에서 좀 특이한 사람이나 생물이 끼어들면 사전 동질성 검사가 실패할 수도 있습니다.

 

이 경우 사전점수를 통제변수로 하는 회귀분석을 하시면 됩니다. 모형식은

 

사후점수 Y2=bo+b1*사전 점수 Y1+b2*집단

 

, 사후점수 Y1에 영향을 미치는 사전 점수 Y1의 영향력을 배제한 다음 실험의 효과를 측정하라는 이야기입니다. 여기서 집단에서 통제집단=0, 실험집단=1로 코딩되어 있으면

 

b2가 유의적이고 양수이면 사후에 실험집단이 통제집단보다 유의적으로 값이 크다는 이야기이고, b2가 유의적이고 음수이면 사후에 실험집단이 통제집단보다 값이 적다는 이야기입니다. b2가 유의적이지 않으면 실험의 효과가 없다는 이야기이고요.

 

이 분석을 흔히 공변량분석(ANCOVA:analysis of covariance)이라 합니다.

 

spss메뉴에는 공변량분석이라는 메뉴가 없습니다. 그냥 회귀분석에 가서 집단과 사전점수를 독립변수로 지정하여 돌리면 되고, 아니면 일반(general) 선형모델에 가서 단변량==> 그리고 요인에 집단, 공변량에 사전점수를 선택하시고 옵션에 모수추정값을 체크하면 회귀분석 결과값이 나옵니다.

 

그래서 사전동질성 검사가 실패한 경우 공변량 분석을 하면 된다고 했는데 그럴 바야 사전동질성 검사를 하지 않고 바로 공변량분석을 하면 되지 않나 이런 질문을 할 수 있습니다.

 

맞습니다. 그래서 요새는 (1)의 사전, 사후 t 검증하지 않고 바로 공변량분석으로 바로 가는 경우가 많습니다.

 

 

(3) 방법은 상호작용항이 있는 이원분산분석(Two-way ANOVA)을 하는 것입니다. 분산분석표에서 상호작용항이 유의적으로 나오면 실험의 효과가 있는 것입니다. 그러나 분산분석표 만으로 실험의 효과가 긍정적인지 아니면 부정적인지 알 수가 없습니다. 그래서 실험집단과 통제집단의 사전, 사후 평균값을 기술통계로 제시를 해야 합니다. 그래프로 그려주고요.

 

이 방법에는 이론적으로 좀 심각한 문제가 있는데요. 분산분석은 측정값 Y들이 서로 독립이라는 것이 가정되어 있습니다. 그러나 특정 사람이나 동물에 사전 Y1, 사후 Y2 값을 측정하면 Y1Y2는 서로 독립이라 가정하기기 힘듭니다. 즉 서로 상관관계가 있다는 이야기이죠.

 

이 지점에서 반복측정, 또는 혼합모형으로 분석을 해야 한다는 이야기가 나옵니다.

 

위의 경우를 조금 더 확장해보죠.

 

집단 사전 Y1 사후 Y2 추후 Y3
실험집단


통제집단


 

 

집단 1Y1 2Y2 3Y3
혈압약 A


혈압약 B


 

 

이렇게 측정을 3, 4번 반복해서 한다면 이젠 아... 먼가 Y1, Y2, Y3간에 상관관계를 생각해야 한다는 느낌이 확 들 겁니다.

 

즉 상관계수(Y1, Y2), 상관계수(Y2, Y3), 상관계수(Y1, Y3)를 지정해야 합니다. 이게 반복측정이나 혼합모형에서 나오는 공분산행렬 지정 메뉴입니다. 이건 다음에 이야기하겠습니다.

 

또 분산분석표 해석도 달라집니다.

 

위의 실험집단과 통제집단의 경우 상호작용항이 유의적으로 나와야 하지만

 

아래 혈압약 A, 혈압약 B 경우 집단의 주효과가 유의적으로 나와야 합니다. 그러나 주효과가 유의적이지 않더라도 약의 효과에서 차이가 있다고 판단해야 하는 경우도 있습니다.

 

이게 아래 그림의 경우입니다.

 

 

 

두 집단, 혈압약 A, 혈압약 B의 평균값은 40/3으로 같습니다. 그래서 집단의 주효과는 유의하지 않습니다. 그러나 시간의 변화에 따른 혈압은 완전히 다르죠. 그래서 집단*시차의 상호작용항은 유의하게 나옵니다.