혼합모형(Mixed Model)/혼합모형의 이해와 수식

혼합모형(Mixed Model) 이해와 수식

학위논문통계 2019. 3. 26. 15:03

 

Mixed Model(혼합모형)은 매우 포괄적인 모형입니다. 일반 요인분석에서 시작해서 교육학, 심리학에서 많이 하는 실험효과 모형, 그리고 위계적 회귀분석, 이 위계적 회귀분석은 크게 2가지 유형이 있는데 다층구조를 가진 데이터를 분석하는 HLM이 있고, 조절효과를 분석하는 위계적 회귀분석이 있는데 이 두가지 위계적 회귀분석과 모두 관련이 있습니다. 또한 시간 t가 들어가는 시계열 형식의 데이터인 패널데이타(panel data) 또는 repeated measure 데이터 분석과도 밀접한 관련이 있습니다. 그래서 여기서 모두 엄밀하게 다 정리해 들이지는 못하고 간략하게 소개하는 수준으로 적겠습니다. 저도 이쪽 전공이 아니라서요.

 

인티넷에서 검색을 해보니까 깔끔하게 정리되어 있는 것이 없네요. 저도 공부하면서 이야기를 전개해 나가겠습니다. 물론 제가 대학원 다닐 때 공부한 책이 있는데 이건 워낙 옛날 책이라 분산분석에 관련된 것 밖에 없네요. 최근 이론은 없고요.

 

그리고 SPSS에서는 다층구조분석인 위계적 회귀분석(HLM)과 페널 분석은 한계가 있기 때문에 다른 통계프로그램을 사용하시는 것이 좋을 것입니다.

 

 

1. 일반적인 혼합모형

 

선형까지 고려하면 일반적인 혼합모형의 수식은 다음과 같습니다.

 

 

 

이에 반해 일반적인 회귀분석의 모형 수식은 다음과 같습니다.

 

 

이 두식을 비교해보면 혼합모형에서 상수항의 회귀계수에 b0가 더 들어가고 선형인 1차항 회귀계수에 b1이 더 들어갑니다. 좀 특이하죠.

 

이 b0와 b1를 고정된 값으로 보면 고정효과모형이라 하고 어떤 확률변수에서 나온 값이라 보면 확률효과 모형이라 합니다.

 

확률효과 모형이 좀 특이합니다. 즉 일반적인 주류통계학의 회귀분석 모형에서는 상수항과 1차항의 계수인 회귀계수를 모수(parameter), 즉 데이터에서 추정해야 하는 값으로 보는데 이 확률효과 모형에서는 확률변수로 보는 점이 다릅니다. 즉 베이지안 생각이 좀 들어가 있습니다.


 

) 따라서 상수항

 

즉 혼합모형에서 상수항 계수는 평균이 이고 분산은 인 확률변수라고 봅니다.



 마찬가지로 1차의 회귀계수에서도

 

) 따라서 상수항

 

즉 혼합모형에서 1차항 계수는 평균이 이고 분산은 인 확률변수라고 봅니다.

 

 

그럼 여기서 매우 중요한 의문점을 제시할 수 있습니다. 앞에서 우리가 흔히 사용한 회귀분석모형의 수식을 쓰지 않고 왜 이렇게 복잡한 혼합모형 수식을 사용할까요. 여기에 대한 답은 다음 그림에 있습니다.

 

    

왼쪽의 그림은 혼합모형 적용하였을 경우 나온 결과이고 오른쪽의 그림은 흔히 우리가 하는 회귀분석 모형을 적용하였을 경우 회귀분석 결과입니다. 어떻게 다른 것일까요.

 

일반 y값은 항공사의 매출이라고 하고, 독립변수 x는 항공기 이용고객 수라고 하죠. 매년 항공기 이용고객 수와 이에 따른 항공사의 매출을 관찰하였다고 가정하죠. 그리고 왼쪽의 그림의 두 개의 선은 2개의 항공회사 즉 대한항공과 아시아나 항공 2회사를 구별하여 그린 것이라 생각하죠.

 

즉 왼쪽의 그림을 보면 2개의 항공회사의 고객수와 매출액은 추정항 상수항과 1차항의 회귀계수가 전혀 다릅니다. 이 두 개의 선을 평균하면 중간에 그린 빨간색 직선 비슷하게 될 겁니다. 즉 혼합모형을 돌리면 의 추정값은 빨간색 직선의 y 절편 값과 기울기가 될 것입니다.

 

그러나 이 데이터를 일반 회귀분석을 할 경우 즉 대한항공과 아시아나 항공을 구별하지 않고 전부 다 집어넣고 돌릴 경우 추정한 회귀식은 오른쪽 그림의 직선이 된다는 것이죠. 즉 1차선 회귀계수, 즉 직선의 기울기가 음수가 나옵니다. 말이 안되죠. 비행기 이용고객이 늘수록 매출액이 급격히 떨어진다는 것은 상식적으로 말이 안된다는 것이죠. 그래서 위와 같은 데이터일 경우 흔히 우리가 사용하는 회귀분석 모형을 돌리면 완전히 엉터리 결과가 나옵니다.

 

그럼 여기서 여러 가지 질문을 할 수 있습니다.

    

 

 

2. 그럼 우리가 지금까지 한 회귀분석은 다 잘못된 것입니까?

 

아닙니다. 위의 그림은 혼합모형의 필요성을 강조하기 위해 아주 특별한 경우를 제시한 것입니다. 즉 위와 같은 경우는 극히 예외적인 경우입니다.

 

 

 

3. 그럼 어떻게 해야 하는 것일까요. 즉 일반 회귀분석을 사용해야 하는 것인가요 아니면 혼합모형을 사용해야 하는 것인가요?

 

그래서 사전에 그래프를 그려봐야 합니다. 예를 들면 다음과 같은 작업을 해야 합니다.








첫 번째 그림은 연령대별 시간이 갈수록 게임의 점수가 늘어나는 경향을 분석한 것이고, 두 번째 그림은 8살부터 14살 까지 치열교정을 받은 남자16명과 여자 11명의 치료효과를 분석한 그림입니다.


이와 같이 사전에 그림을 먼저 그려보는 것이 좋은 방법입니다. 그러나 진짜 전문적인 논문이외에는 이렇게들 잘 안하죠. 당연히 비용과 돈이 많이 드니까 그런 것이죠. 두 번째 그림은 Splus에서 혼합모형의 예로 제시해준 그림입니다.


 

 

4. 그럼 먼저 그림으로 대강 파악을 했다고 해도 이론적, 과학적으로 어떻게 판단을 하는 것일까요.

 

전에 한번 쓴 적이 있는데 모든 과학의 기본 원칙 중의 하나가 절약의 법칙(parsimony principle)입니다. 모형을 복잡하게 하면, 즉 이론을 복잡하게 만들면 100% 현실 데이터와 잘 맞아 떨어집니다. 이 이야기를 통계학의 용어로 이야기하면 데이터의 적합도가 높아집니다. 예를 들어 회귀분석에서 독립변수를 하나 더 추가할 때마다 무조건 설명력은 증가하게 되어 있습니다.

 

그럼 절약의 법칙은 무엇인가. 모형의 더 복잡하게 해도 적합도가 그리 놓지 않으면 단순한 모형을 좋은 모형으로 택한다는 것입니다. 즉 오캄의 면도날 이야기입니다. 가능하면 간단하게 설명하고, 모형을 복잡하게 할 경우 단순한 모형보다 뚜렷하게 적합도가 놓아야 그때서야 복잡한 모형을 택해야 한다는 이야기입니다.

 

이걸 과학적으로 하는 방법이 회귀분석에서 나오는 F 검증이고, 아니면 우도함수의 상승을 보는 검증이 있고, 이것도 안되는 경우 AIC나 BIC 등을 사용합니다.

 

또한 앞의 수식에서 확률효과 모형에서는 이나 가 0인지 아닌지 검증할 수 있습니다.

 

 

5. 조절효과와의 관계

 

위의 항공사 예를 다시 한번 보죠

 

  


왼쪽 그림이 사회과학에서 자주 사용하는 조절효과를 보는 전형적인 위계적 회귀분석의 결과입니다.

 

먼저 조절변수로 항공사를 지정합니다. 아시아나 항공을 0, 대한항공을 1로 코딩하여 변수로 만듭니다. 그럼 다음과 같은 위계적 회귀분석 모형식을 세웁니다.

 

 

항공사 매출=b0+b1*고객수+b2*항공사+b3(고객수*항공사)

 

이렇게 됩니다. 그럼 b0는 아시아나 항공사의 y 절편이 되고, b1은 아시아나 항공사의 기울기가 되고, b2는 아시아나 항공사와 대한항공사의 y 절편의 차이가 됩니다. 그리고 마지막 b3는 아시아나 항공사와 대한항공사의 기울기의 차이가 됩니다.

 

이걸 SPSS에서 하면 1단계에 독립변수 고객수를 지정하고 2단계에 조절변수인 항공사 이진변수, 즉 더미변수를 지정하고, 마지막 3단계에서는 (고객수*항공사)의 상호작용항을 지정합니다. 그리고 옵션에서 적합도 증가, 즉 R2 증가분을 체크하면 단계별 설명력을 검증하는 F 검증값이 나옵니다.

 

3단계 결과를 표로 그리면

독립변수

회귀계수

상수(b0)

-5.242

고객수(b1)

0.412

항공사(b2)

0.824

고객수*항공사(b3)

0.211

 

즉 아시아나 항공의 경우

 

매출액=-5.242+0.412*고객 수

 

대한항공의 경우

 

매출액=(-5.242+0.824)+(0.412+0.211)*고객수

 

가 됩니다. 항공사의 조절효과를 본다는 이야기는 두 항공사의 기울기 차이인 b3=0.211이라는 값이 실제로 0인가 아닌가를 검증한다는 이야기입니다. 즉 분명한 항공사의 차이인지 아니면 표본추출과정에서 나온 우연한 차이인지를 판단한다는 이야기입니다.

 

 

5. Sipmson의 paradox

 

위의 항공사의 경우가 전형적인 심슨의 역설의 예입니다.

 

심슨의 역설의 대표적인 예가 백인과 흑인의 유죄 이야기입니다. 이건 조작한 예가 아니고 실제로 일어난 예입니다.

 

미국에서 백인과 흑인의 인종차별이 심하고 그래서 살인 사건이 일어나면 흑인이 유죄를 받은 확률이 백인이 유죄받을 확률보다 훨씬 높을 것이라 생각합니다. 그러나 실제 데이터를 조사해보니 백인이 유죄판결을 받을 확률이 흑인보다 훨씬 높게 나왔습니다. 도대체 왜 이런 결과가 나왔을가요.

 

데이터를 더 뜯어보니까 문제는 피해자의 인종에 있었습니다. 즉 피해자가 백인인 경우 흑인은 거의 100% 유죄로 판결을 받았습니다. 백인은 그렇치 않고요. 실제로는 흑인 차별이 있었던 것이죠. 그러나 전체적으로 보면 백인의 유죄 판결이 높았던 이유는 백인이 백인을 살해하는 경우가 흑인이 백인을 살해하는 경우보다 훨씬 많았기 때문입니다.

 

그래서 살인 용의자의 인종, 살인 피해자의 인종, 그리고 유죄 판결 여부, 이 세 개의 변수만 존재해도 우리가 실상을 파악하기 매우 힘들어집니다.

 

이런 예는 타자의 타율에서도 나옵니다. 좌투수, 우투수 상대로 다른 선수보다 타율이 높은데 전체 타율을 이와 반대로 낮은 경우가 있습니다.

 

이 이야기는 다음에 자세히 이야기를 해보죠.

 

그럼 다음에는 고정효과와 확률효과라는 것이 개념적으로 어떤 것을 이야기하는지 한번 이야기를 해보죠.