실험계획/혼합모형(mixed model)

혼합모형의 이해1

학위논문통계 2023. 8. 10. 15:28

혼합모형을 이해하기 상당히 힘든데요. 제가 공부할 당시 통계 교과서에서 나오지 않아서 체계적으로, 또는 학술적 권위가 있는 내용으로 배우지를 못했습니다.

 

그래서 여기서 쓴 내용은 제가 100% 옳다고 장담은 못하겠습니다. 저도 인터넷에서 자료 찾아보고(학술적 권위면에서 조금 약하죠), 저 나름대로 이리저리 시도해 보고 쓰는 내용입니다.

 

 

혼합모형이 왜 어려운가?

 

먼저

 

첫째, 이론적으로 이해를 해야 합니다.

 

둘째, 혼합모형은 기존의 대부분 모형, , 분산분석, 회귀분석 등 또는 SPSS에 있는 repeated measure, variance component 등을 포함하는 매우 포괄적인 모형입니다. 그럼 이런 의문이 생길 수 있습니다. 기존에 내가 했던 방법은 틀린 것인가? 그럼 도대체 언제 이 혼합모형을 써야 하는가 이런 의문이 들 수 있습니다.

 

셋째, 그럼 이 혼합모형의 이론은 어느 정도 이해를 했다고 하죠. 여기서 끝나는 것이 아니죠. 실제 분석을 하려면 이 혼합모형을 실행시켜 줄 수 있는 통계 프로그램을 돌릴 수가 있어야 합니다. 여기서는 spss만 이야기하겠지만 앞의 이론을 어느 정도 이해해도 실제 spss에서 혼합모형을 돌리려고 하면 상당히 어렵습니다. 메뉴가 뭘 의미하는지 알 수가 없다는 것이죠.

 

불행히도 인터넷에 있는 자료들은 그렇게 친절하지도, 설명을 잘하지도 못한 것 같습니다.

 

그래서 앞으로 몇 편의 글을 통해 이런 문제를 하나씩 설명할까 합니다.

 

 

 

그럼 혼합모형의 정의는 어떻게 될까요. 불행히도 명확하게 정의를 내린 책을 보지는 못했습니다. 여기서 제가 소개하는 정의는 R의 상업용 버전인 S-plus 매뉴얼에 있는 정의입니다.

 

 

혼합모형은 고정효과(fixed effect)와 확률효과 또는 랜덤효과(random effect)가 합친 모형이다라고 되어 있습니다.

 

 

그럼 고정효과와 확률효과만 이해를 하면 되죠. 그런데 이 고정효과와 확률효과에 대해 명확하게 설명이 되어 있지 않습니다.

 

그럼 S-plus 매뉴얼에는 어떻게 정의되어 있을까요. 다음과 같습니다.

 

 

Fixed effects are parameters associated with an entire population, or with repeatable levels of experimental factors.

 

 

Random effects are parameters associated with experimental units drawn at random from a population

 

 

무슨 말인지 잘 이해가 안되죠. 그러나 이 정의가 가장 명확하고 이해하기 쉽고 또 나중에 SPSS에서 혼합모형을 사용할 때 메뉴를 가장 잘 이해할 수 있습니다.

 

그럼 위의 정의를 조금 쉽게 설명을 해보죠. 혼합모형의 기본 수식을 다음과 같습니다.

 

 

Y=(a0+a1)+(b0+b1)*X+e

 

 

이렇게 됩니다. Y는 종속변수이고 X는 독립변수이고, e는 오차항입니다. (a0+a1)이 상수항이 되고, (b0+b1)이 기울기가 됩니다.

 

 

여기서 독립변수 X는 실제로 여러 개의 독립변수가 될 수 있습니다. 실제 분석에서는 여러개의 독립변수가 들어가죠. X=(X1, X2, ..., Xk)가 됩니다. X2차항, 3차항, 또는 log(X) 등 다양한 모양으로 들어갈 수 있습니다. 이 경우는 W1=X2, W2=X3, W3=log(X) 이런식으로 변형해서 독립변수로 넣으면 됩니다. , 여러분이 가지고 있는 데이터에서 X를 변형해서 데이터 뒤에 붙여서 새로운 독립변수를 만들면 됩니다.

 

 

그럼 기존에 여러분이 했던 회귀분석 식을 한번 보죠.

 

Y=a0+b1*X+e

 

이렇게 됩니다. 그럼 a0는 전체 모집단을 조사했을때의 상수항이 되고, b0는 전체 모집단을 조사했을 때 기울기가 되는 것입니다.

 

그런데 우리가 전체 모집단에서 a0, b0를 모르기 때문에 표본을 뽑아서 여기서 a0b0을 추정을 하는 것입니다. a0, b0는 우리가 모르는 모수(parameter)가 되는 것이고, 여러분이 조사한 데이터를 통해서 나온 추정값, spss 결과물에서 나오는 값은 이 모수 a0b0를 추정한 값입니다. 이 추정한 값을 보고 가설검증을 하는 것입니다.

 

그럼 a0b0는 위의 정의에 따르면 고정효과(fixed effect)에 해당하는 모수가 되겠죠.

 

그래서 고정효과의 정의인

 

Fixed effects are parameters associated with an entire population, or with repeatable levels of experimental factors.

 

 

에서 앞부분은 이해를 했는데 뒷부분인 with repeatable levels of experimental factors.

은 뭔지 모르겠다는 것이죠.

 

여러분이 흔히 아는 Baron & Kenny의 조절효과를 보는 모형을 생각해보죠. 조절변수를 성별이라고 하면 모형식은 다음과 같습니다. 성별은 남자=0, 여자=1로 코딩했다고 하죠.

 

 

Y=(a0+a1*성별)+(b0+b1*성별)*X+e

 

 

이렇게 됩니다. 여기서 a1는 주효과가 되고 b1은 조절효과가 됩니다.

 

이 경우 다른 사람이 와서 이 모형과 똑같은 모형으로 설문조사를 해서 다시 분석할 수 있습니다. 즉 성별이라 변수는 다른 사람이 와서도 반복이 가능합니다.

 

하여간 여러분이 조절효과를 검증할 때 혼합모형을 사용하면 편한 점이 여러분이 일일이 X*성별이라는 상호작용항을 만들 필요가 없다는 것입니다. 혼합모형 메뉴에서 이 상호작용항을 자동적으로 처리해 줍니다.

 

하여간 이렇게 다시 재현할 수 없는 경우도 있습니다.

 

혼합모형의 예로 인터넷에서 많이 나오는 예입니다. 이 경우는 표본추출과 매우 밀접한 관계가 있습니다.

 

킬러문항 정답율에 대해서 조사를 한다고 하죠. 그럼 일반고등학교, 과학고등학교, 외국어 고등학교 이렇게 학교를 분류해서 일반고=0, 과학고=1, 외고=2 이렇게 코딩했다고 하죠.

 

그럼 모형식은 이렇게 됩니다.

 

킬러문항 정답율=(a0+a1*학교종류)+(b0+b1*학교종류)*부모의 경제력+e

 

이렇게 됩니다.

 

 

이 경우 a1, b1도 고정효과 모수가 됩니다. 다른 사람이 와서 이와 똑같은 형태로 표본을 추출할 수 있습니다.

 

 

그러나 학교를 위와 같이 일반고, 과학고, 외고 이렇게 3가지로 추출하지 않고 랜덤하게 20개 고등학교를 추출한다고 하죠. 그럼 모형식은 비슷합니다.

 

킬러문항 정답율=(a0+a1*학교종류)+(b0+b1*학교종류)*부모의 경제력+e

 

그러나 여기서는 학교종류는 확률효과가 됩니다. 즉 학교에 변수이름 id라고 부여했을 경우

 

다른 사람이 같은 방식으로 학교를 랜덤하게 추출한다고 했을 경우 똑 같은 학교가 추출이 되지 않습니다. 즉 처음에 뽑힌 학교의 id=(3, 10, 15, 24, 37...) 이렇게 뽑혔다고 하죠. 그런데 누가 다른 사람이 학교를 추출할 때는 학교 id가 똑같이 뽑히지 않는다는 것이죠. 이 경우

 

킬러문항 정답율=(a0+a1*학교종류)+(b0+b1*학교종류)*부모의 경제력+e

 

 

에서 a1, b1는 확률효과에 해당합니다. 엄밀하게 말하면 학교종류를 숫자로 처리하지 않고 평균이 0이고 표준편차가 s인 정규분포를 가정하는 확률변수로 처리합니다. 즉 확률효과가 들어가는 경우 위 모형식은

 

킬러문항 정답율=(a0+a1)+(b0+b1)*부모의 경제력+e

 

이렇게 되고 a1=> 정규분포(0, s1), b1==> 정규분포(0, s2)한다고 가정합니다. 그래서 s1s2는 확률효과에 해당하는 모수가 됩니다.

 

 

 

위 개념을 좀 간단하고 이해하기 쉽게 설명할 수 없을까요.

 

분석이 섞기(shuffling)에 불변(invariant)하면 확률효과이고 불변하지 않으면 고정효과입니다.

 

예를 들어 처음에 일반고=0, 과학고=1, 외고=2 이렇게 코딩했는데 누가 몰래 와서 이걸 섞어 버리는 것입니다. 일반고=1, 과학고=0, 외고=2 이렇게요. 그럼 처음에 코딩한 사람은 나중에 분석 결과를 해석할 때 완전히 엉터리로 분석하게 됩니다. 과학고를 일반고를 해석하고 일반고를 과학고로 해석을 한다는 것이죠.

 

그러나 두 번째의 경우 전체 고등학교에서 20개의 고등학교를 랜덤하게 뽑아서 이 뽑힌 학교에서 학생 10명식 전체 200명을 조사한다고 하죠. 학교는 id 변수를 줘 1, 2, 3, ,,,,. 20까지 값을 줍니다. 그런데 나중에 누가 와서 몰래 이 id값을 자기 마음대로 바꿉니다. 2, 188, 1, 4, 이렇게요.

 

이렇게 마음대로 id값을 섞어도 분석에는 아무런 변화가 없습니다. 우리의 관심사는 뽑힌 학교의 개별적인 분석 내용이 아니기 때문입니다.

 

 

뭔가 좀 어려운 것 같죠. 실제 일상생활에서 여러분이 매우 잘 아는 것입니다.

 

고도리를 친다고 해보죠. 그럼 자기에게 돌아 온 패를 여러분이 순서대로 그대로 가지고 있지 않고 광은 광대로, 껍질은 껍질대로 따로 정리를 하죠. 이게 섞기(shuffling)입니다. 이렇게 자기 보기 편한대로 섞기(shuffling)을 할 수 있는 것이 이 패 섞기가 승부에는 전혀 무관한 즉 invariant 하다는 것을 알기 때문입니다.

 

자기에게 들어 온 패를 어떻게 배치하는가에 따라 승부가 달라진다고 이 패 배치 방법에 대해서 수 많은 연구가 진행되었을 겁니다. 여러분이 이런 전문적인 용어를 몰라도 직관적으로 승부에 관계가 없다는 것을 압니다.

 

수학 관련된 책에서 복잡한 수식으로 되어 있으면 매우 어렵다고 생각합니다. 그러나 진짜 어려운 책은 수식이 거의 없고 이런 “shuffling에 대해 invariant하다이렇게 쉽게 말로 써진 책이 진짜 어려운 책입니다.

 

 

"좌표전환에 대해 빛의 속도는 invariant"하다 이게 유명한 아인쉬타인의 상대성 이론입니다.

 

 

위의 학교말고 아파트 주민의 인식 조사 같은 경우도 똑같은 예로 설명할 수 있습니다. 대규모 아파트 단지에서 아파트 동을 소형=0, 중형=1, 대형=2 이렇게 분류한 다음 이 분류된 아파트 동에서 주민을 뽑아서 하는 경우 a1b1는 고정효과 모수입니다.

 

아파트 단지 전체 100개 동에서 랜덤하게 20개 동을 뽑아서 이 뽑힌 동의 주민만을 대상으로 조사를 한다고 하면 이 경우 a1b1는 확률효과이고 나중에 다른 사람이 똑같이 조사를 한다면 처음과 같은 동은 절대로 다시 뽑힐 수 없습니다. 즉 재현이 불가능합니다.

 

이 경우 해석은

 

Y=(a0+a1)+(b0+b1)*X+e

 

여기서 a1은 동에 따른 변동, 즉 상수항은 전체 아파트 단지의 평균적인 상수항을 의미하는 a0가 있고, a0을 중심으로 뽑힌 동에 따른 상수항의 변동이 있다 이렇게 해석이 되는 것이고, b0는 전체 아파트 단지의 주민을 대표하는 평균적인 회귀계수가 되고 이 b0을 중심으로 회귀계수가 동에 따른 변동이 있다 이렇게 되는 것입니다.

 

그럼 여러분이 흔히 하는 설문조사의 경우 혼합모형으로 하면 어떻게 될까요. 설문응답자의 식별자를 id라고 하죠.

 

그럼 모형식은 똑같이

 

Y=(a0+a1)+(b0+b1)*X+e

 

이렇게 되고 a1는 설문응답자에 따른 상수항의 변동, b1는 설문응답자에 따른 회귀계수의 변동 이렇게 해석이 되는 것이 되고 이게 확률효과라는 것이죠.

 

 

 

 

 

다음에 더 쓰죠.