혼합모형(Mixed Model)

혼합모형의 이해1

학위논문통계 2022. 1. 10. 22:22

혼합모형은 좀 이해하기 힘든 개념인데요. 상대적으로 최근에 나온 이론이라 보시면 됩니다.

아마 논문 쓰시는 분은 자기의 경우만 통계프로그램에서 어떻게 처리하면 되는지 알고 싶기 때문에 깊은 이해를 원하지 않을 수가 있습니다. 그러나 이런 저런 시도를 하려고 하면 내용을 좀 자세히 이해하시는 것이 좋을 것입니다.

 

사회과학에서 혼합모형 예로 반복측정(repeated measure) 경우가 많은데 이 반복측정 데이터는 본질적으로 패널데이터입니다. 통상 패널데이터라 하면 정부 데이터 같이 분기별, 아니면 매년 subject인 개인, 산업, 기업을 추적해서 조사하는 경우를 말하고, 반복측정 데이터는 사회과학이나 의료 등에서 실험효과를 볼 때 많이 사용하는 단어입니다.

 

 

일단

 

첫째, 혼합모형의 개념을 이해해야 하고요.

 

둘째, 혼합모형을 사용해야 하는 상황을 이해해야 하고요.

 

셋번째, 혼합모형의 수학적 표현을 이해해야 하고요.

 

넷째, 자신이 사용하는 통계프로그램에서 이 모형을 어떻게 처리하는지 알아야 합니다.

 

저는 여기서 SPSS만 설명하겠습니다. sas, stata, s-plus, R, 또는 구조방정식 모형까지 처리하는 HLM 등이 있는데 저는 sas와 HLM은 사용하지 않기 때문에 HLM을 꼭 원하시면 저에게 프로그램을 보내 주셔야 합니다.

 

오늘은 앞에 적은 부분에 대해 간단히만 설명하겠습니다.

 

1. 혼합모형의 이해

 

먼저 혼합모형(mixed model)의 개념을 이해하려면 먼저 랜덤효과(random effect)를 이해해야 합니다. 이 랜덤효과가 없고 단순히 고정효과(fixed effect)만 있다면 별 어려운 모형은 아닙니다. 이건 다음에 자세히 이야기하겠습니다.

 

 

두 번째로 지금까지 회귀분석 모형에서 연속형 변수와 범주형 변수가 같이 들어가는 경우를 설명했습니다. 이 경우 종속변수 Y(i), 그래서 오차항 e(i)는 독립을 가정하였습니다.

 

통계학은 독립이 아니면 졍규분포를 빼고 처리하기기 힘듭니다. 정규분포는 독립이 아니더라도 다변량 정규분포라고 해서 분포가 알려져 있기 때문에 MLE가 구할 수가 있고 여기에 따른 모수추정이나 가설검증 등 여러 가지 추론이 가능합니다.

 

그러나 정규분포가 아니고, 즉 종속변수가 이진변수(베르누이 시행), 포아송, 지수분포의 경우이면 서로 독립이 아니면 다변량 분포 자체를 알 수가 없습니다. 따라서 아무것도 할 수 없습니다. 그래서 정규분포가 아닌 경우 다루는 일반화 회귀분석(generalized regression)의 경우 전부 다 독립을 가정합니다.

 

혼합모형의 경우 독립이 아닌 경우도 다룰 수가 있습니다. 당연히 분포는 정규분포 가정이죠. 그 대표적인 예가 반복측정 모형입니다.

 

예를 들어 백신1,..., 백신5 등 5명의 코로나 백신 접종을 받은 사람들의 부작용 Y(t) (Y(1), Y(2), ..., Y(t)) 을 시간에 따라 계속 측정할 수 있습니다. 그럼 백신을 접종한 사람 특정 백신(i)의 경우 부작용 관찰치 Y(t)는 서로 상관관계를 가진다고 볼 수 있습니다. 그러나 백신 접종자 백신1, 백신2의 부작용 관찰치는 서로 독립이라고 할 수 있습니다.

 

이렇게 시간이 따라 관찰치가 서로 상관관계가 있다고 가정할 때 가장 많이 쓰는 가정이 AR(1) 모형입니다. AR은 시계열 자료분석에서 나오는 autoregression, 즉 자기 상관을 말합니다. 이것은 상관관계(Y(1), Y(2))=r, 상관관계(Y(2), Y(3))=r, 즉 현재 시점 Y(t)와 그 다음 시점 Y(t+1)의 상관관계는 동일한 상관관계 r이라고 보는 것입니다.

 

그러나 한 시점 이상에서는 관찰치는 서로간 독립이라 가정합니다. 즉 Y(1)과 Y(3), Y(4)와의 상관관계는 0이고 서로간 독립이라 가정합니다.  ==> 수정합니다. 배운지가 오래 되어서 깜박 했네요. 상관(Y(1), Y(3))=r제곱, 상관(Y(1), Y(3))=r세제곱, 즉 시간이 벌어질수록 상관관계가 기하급수적으로 떨어집니다. AR은 자기상관이라고 하는데 이건 시계열 자료 분석에서 나오는 용어입니다. 또 하나가 MA인데 이건 moving average 즉, 주식시장에서 많이 쓰는 이동평균을 말합니다. 이 두개를 합친 ARMA, ARIMA 등이 있습니다. 

 

 

2. 혼합모형 사용 상황

 

다음의 그림은 반복측정이고 랜덤효과가 있는 경우의 그림을 통해 예를 들어 보겠습니다. 그림은 R의 상업용 프로그램인 S-plus의 매뉴얼에 있는 예입니다.

 

위의 예는 남자 어린이 16명과 여자 어린이 11명, 전체 27명의 어린이의 8세부터 14세까지 시간에 따른 종속변수, 치아의 발달 Y(t)의 변화입니다. 그림 보시면 Y 절편, 즉 상수항이 어린이에 따라 조금씩 다르고 기울기도 전반적으로 직선, 즉 시간 t가 흘려감에 따라 치아 발달도 상승하지만 이 상승 정도, 즉 직선의 기울기도 어린이에 따라 조금씩 다릅니다.

 

그래서 일반적으로 회귀분석 모형을 하면

 

Y(t)=b0+b1*t+e

 

이렇게 되겠지만

 

이 상수항과 기울기의 개별 어린이들의 변동을 고려한 혼합모형을 적용하면

 

모형은

 

Y(t)=(b0+어린이 상수항 변동)+(b1+어린이 기울기 변동)*t+e

 

이렇게 됩니다. 즉 어린이 subject의 랜덤효과를 추가한 혼합모형이 됩니다. 이렇게 모형을 좀 복잡하게 만듬으로서 우리가 추정하고자 하는 b0와 b1을 좀 더 정확하게 추정하고 가설 검증도 좀 더 정확하게 하고자 하는 것이 목적입니다.

 

 

3. 수학적 표현

 

그 다음 많은 사람들이 헷갈리고 어려워하는 부분이 수학적 표현입니다.

 

이 수학적 표현은 크게 3가지로 볼 수 있습니다.

 

1) 행렬식 표현

 

혼합모형은 다음과 같은 행렬식으로 일반화 될 수 있습니다.

 

Y=Xb+Zd+e

 

여기서 앞부분 앞부분 Xb는 고정효과 부분이고 뒤의 Zd는 랜덤효과 부분입니다. 통상 통계학에서 이 X와 Z를 디자인 행렬이라 합니다. X는 회귀분석에서 설명변수에 해당하는 데이터를 행렬로 본 것에 불과합니다. 그러나 앞에서 이야기했듯이 범주형 자료에서는 여러개의 이진더미변수로 처리해서 새로 생성해야 합니다.

 

문제는 랜덤효과에 해당하는 Z의 모양입니다. 이건 다음에 잠깐 다루자고 합니다.

 

이 행렬식 표현이 왜 중요하냐면 통계 이론 공부하는 사람은 이런 행렬식 모형으로 만들어야지 MLE를 구해서 회귀계수 b와 d를 추정할 수 있습니다. 따라서 통계 전공자가 아니고 일반 논문 쓰시는 분들은 이 행렬식 모형을 알 필요는 없습니다.

 

 

2)와 3) 수학모형, 혼합모형과 위계적 모형

 

그 다음 통계학 논문이 아닌 일반 논문에 많이 나오는 혼합모형의 수학식 두 번째와 세번째입니다. 아래의 그 예입니다. 

 

위의 모형은 가장 간단한 모형으로 고정효과는 없고 상수항에서만 랜덤 효과가 있는 경우입니다.

 

이 모형은 앞의 어린이의 치아 발달의 경우 고정효과는 시간 t이고 상수항과 기울기에서 랜덤효과가 있는 경우입니다. 위의 설명변수 Extrave는 어린이 치아 예에서 시간 t로 생각하시면 됩니다.

 

왼쪽의 Mixed model에서 수식을 정리하면

 

Yij=r00+r10*Extrave+u1j*Extrave+u0j+eij

=(r00+u0j)+(r10+u1j)*Extrave+eij

=b0j+b1j*Extrave+eij

 

이렇게 되어 오른쪽의 Hierarchical Model과 정확하게 일치합니다.

 

다음는 각 부분에 대해 조금 자세한 설명을 하겠습니다. 먼저 랜덤효과의 이해에 대해 자세한 예를 들어 설명하겠습니다.