실험계획/혼합모형(mixed model)

혼합모형으로 실험효과보기2

학위논문통계 2023. 9. 28. 16:59

 

혼합모형으로 실험효과를 볼 때 데이터 형태는 long format으로 해야 합니다. 패널데이타와 같은 모양입니다.

 

개체(subject) 집단 시차(time) Y X1 X2
A1 A 1      
A1 A 2      
A1 A 3      
A2 A 1      
A2 A 2      
A2 A 3      
A3 A 1      
A3 A 2      
A3 A 3      
B1 B 1      
B1 B 2      
B! B 3      
B2 B 1      
B2 B 2      

 

실험효과 데이터의 경우 개체는 주로 사람이나 동식물 등이 되지만 경영이나 경제 데이터에 많이 나오는 패널데이터의 경우 개체는 기업, 산업, 지역, 국가 등이 됩니다. 위 데이터에서 개체나 집단은 숫자 1, 2, 3 이렇게 표시해도 됩니다.

 

 

지난번 글에서 이야기했지만 실험의 상황이 매우 다양하기 때문에 결과물의 해석을 주의해서 해야 합니다. 즉 분산분석표의 유의적이고 아니고에 대해 조심해서 해석을 해야 합니다.

 

그러나 SPSS에서 혼합모형을 돌릴 때는 거의 같은 절차를 따르면 됩니다.

 

먼저 3개의 집단에 1, 2, 3차 측정을 했다고 하죠. 그럼

 

 

마지막 공분산 행렬의 설명은 제일 마지막에 있습니다.

 

그 다음

한 다음 고정을 누르고

 

상호작용항까지 첨가합니다. 그래서 2원 분산분석과 같은 모양인데 다른점은 시간을 나타내는 차수가 특정 개체에 반복 측정한 값이기 때문에 서로 상관관계가 있다는 점에서 다릅니다.

 

다음 앞으로 돌아가서 EM 평균을 지정합니다. 여기서 EMEM 알고리즘에 나오는 EM이 아니고 estimated marginal의 약자입니다. 여기서는 모형에 의해 추정된 평균 값을 보여 줍니다 또 사후검증을 할 수 있습니다.

그럼 다음과 같은 결과를 얻을 수 있습니다.

 

제일 위는 분산분석표이고, 집단별로는 유의적인 차이가 없고, 차수별로는 유의적인 차이가 있습니다. 여기서는 어떤 차수와 어떤 차수간에 차이가 있는지 알 수는 없습니다. 이건 나중에 사후검증에서 알 수 있습니다. 두 번째는 회귀분석 결과표이고 마지막이 반복측정 공분산행렬 추정값입니다.

 

사후검증을 보면

 

집단의 경우

1집단과 2집단, 1집단과 3집단, 2집단과 3집단간에 유의적이 차이가 있는지 검증해줍니다.

 

시차의 경우

다음에는 시차(time)을 범주형 자료로 처리하지 않고 연속형 변수로 처리하는 경우를 설명하겠습니다.

 

데이터를 보니까 모든 집단에서 시간에 따라서 꾸준히 상승한다든지, 아니면 하락하다든지 이러면 시차 변수를 연속형으로 처리해 고정에 넣지 말고 공변인에 넣은 것이 낫습니다. 이럼 모형식은 다음과 같습니다.

 

Y=b0+b1*시차+b2*집단

 

 

 

 

 

* 반복측정 공분산 행렬

 

SPSS 메뉴에는 굉장히 많은 종류의 공분산 행렬이 나옵니다. 다 아실 필요는 없고 대표적으로 아래 4개 정도만 알면 됩니다. SPSS 한글판과 영어판을 비교해서 적습니다.

 

 

척도화 항등(scaled identity): 통상적인 회귀분석 가정

 

복합대칭(compound symmetry):

 

대각(diagonal) : 이질적 분산 경우

 

 

비구조적(unstructured): 이 경우는 모든 공분산이 다 다르다는 가정입니다. 시차=3일 일 경우 추정해야 될 공분산 모수가 6개입니다. 그러나 시차=10이면 추정해야 할 공분산 모수가 50개가 넘어갑니다. 따라서 시차가 크거나 아니면 실험대상 인원이 적으면 이 공분산 행렬을 택하면 안됩니다. 추정해야 할 모수가 많으면(, 모형이 복잡하면) 적합도는 올라갑니다. 그러나 나온 결과는 robust 하지 못합니다.

 

 

AR(1): 시계열 분석에서 나오는 가정. 상관(t1, t2)=r 하면 상관(t1, t3)=r2, 상관(t1, t4)=r3, 상관계수 r-11 사이이므로 r2, r3 하면 점점 상관관계가 줄어듬. 즉 시간 간격이 커질수록 상관관계가 점점 줄어듬. 합리적인 생각임.

예를 들어 이번주 프리미어 리그 경기의 승패를 예측할 때, 지난 주 두 팀의 전적은 매우 중요한 정보지만(상관관계가 높음) 1년 전, 또는 10년 두 팀의 전적은 거의 의미가 없음(상관관계가 낮음).