혼합모형(Mixed Model)/혼합모형의 이해와 수식

variance component

학위논문통계 2022. 7. 23. 07:24

 

 

지난번에 통계학 이론을 이해하려면 평균보다 변동을 이해하는 것이 더 중요하다고 이야기했습니다.

 

지난번 글은

 

https://blog.daum.net/dataminer9/773

 

 

여기서 한국 성인의 키에 영향을 미치는 변인으로

 

성인 키의 차이=성별에서 오는 차이+연령대에서 오는 차이+부모 키에서 오는 차이+(성별, 연령, 부모 키 요인으로 설명되지 않는 변동)

 

으로 볼 수 있다고 했는데

 

여기서 우리가 자녀가 2명인 경우에만 키를 조사한다고 하고, 부모는 부모의 키를 재지 않고 부모1, 부모2, 부모3, 이렇게 조사한다고 하죠.

 

그럼 데이터는 다음과 같은 형태로 될 것입니다.

 

id 성별 연령대 부모
1 남자 30대 부모1 178
2 남자 30대 부모1 174
3 여자 20대 부모2 163
4 남자 20대 부모2 176
5 여자 40대 부모3 158
6 남자 40대 부모4 169

 

 

이런 경우 사용하는 통계 방법론이 General linear model==> variance component입니다.

 

 

그러면 지난번 경우와 이론적으로 어떤 차이가 있을까요.

 

지금번의 경우는 성인의 키는 전부 다 독립적이라고 볼 수 있습니다. 즉 특정인 A의 키와 특정인 B의 키는 서로 특별한 관계가 있다고 볼 수 없습니다.

 

그러나 같은 부모 밑의 자녀 2 사람의 키는 서로 연관성, 상관관계가 있다고 볼 수 있습니다.

 

그럼 기존의 성별, 연령, 부모의 키가 성인의 키에 영향을 미치는 중요한 요인인가 문제는 흔히 분산분석, 또는 회귀분석으로 풀 수가 있습니다. 이 경우는 서로 독립이라는 것을 전제를 하고 있습니다.

 

그러나 위의 경우는 독립이 아니기 때문에 기존의 분석을 그대로 사용할 수는 없습니다. 일단 동일 부모 밑에 자녀들간의 키의 상관관계는 지정을 해 줘야 합니다.

 

이와 비슷한 예로 패널 자료를 들 수 있습니다. 특정인의 몸무게를 4년간 추적 조사한다고 하죠. 그럼 특정인 A의 자료는 A1, A2, A3, A4가 있을 것이고 특정인 B의 자료는 B1, B2, B3, B4 이런식으로 쭉 있을겁니다.

 

그럼 특정인 A와 특정인 B의 몸무게는 서로 아무런 관계가 없는 독립적이라 생각할 수 있습니다. 그러나 특정인 A의 4년간 몸무게 A1, A2, A3, A4 사이에, 그리고 특정인 B의 4년간 몸무게 B1, B2, B3, B4간에는 서로 상관관계가 있다고 봐야 할 것입니다.

 

따라서 사회과학에서 패널데이타를 분석할 경우

 

먼저 spss에서 혼합모형 선택을 하면 첫 화면에 다음과 같은 메뉴가 뜹니다.

 

그럼 여기서

 

subject에서는 사람(id) 변수를 선택하고, repeated는 시간 t를 선택한 다음, 그 다음 마지막 밑에 있는 곳에 시간에 따른 변수들의 상관관계를 설정하여야 합니다. 즉 주어진 spss 메뉴에서 공분산 행렬을 하나 선택을 하여야 합니다.

 

패널 데이터가 아닌 경우는 그냥 continue를 선택해서 이 화면은 그냥 넘어가시면 됩니다.

 

 

 

여기서 정리를 해보죠.

 

1. 종속변수가 서로 독립이 아닌 경우 사용한다. 즉 동일부모 밑의 자녀들의 키 관계, 또는 동일인을 시간에 따라 반복 측정하는 경우.

 

 

2. 그럼 위의 경우 항상 모형에 포함해야 할까요.

 

그렇지는 않습니다. 다음의 2개의 모형을 한번 생각해보죠. 동일 부모 밑에 자녀 2명의 키 자료가 있는 똑같은 데이터를 사용합니다.

 

모형1: 키 차이=성별 영향+연령대 영향+ 설명할 수 없는 오차 e

 

모형 2: 키 차이=성별 영향+연령대 영향+ 동일 부모의 영향 e1+설명할 수 없는 오차 e2

 

당연히 모형 2가 모형1보다 더 복잡한 모형입니다.

 

모형1을 선택해서 분석할지 아니면 모형2을 선택해서 분석할지는 오로지 분석하는 사람의 판단입니다. 물론 적합도의 증가, 이에 따른 F값의 유의적인 증가, 또는 AIC, BIC 이런 값을 보고 계량적으로 판단할 수는 있습니다.

 

위의 수식을 보면

 

모형 1에서 e=모형 2에서 e1+e2

 

 

의 형식을 가지고 있습니다. 즉 모형 1에서 설명할 수 없는 오차는 모형 2에서 2개로 더 쪼개집니다. 즉 동일 부모의 영향에 따른 변동 e1+설명할 수 없는 변동인 오차 e2

 

이 과정을 통해 성별, 또는 연령대의 영향이 유의한지 아닌지 모형1과 모형2에서 달라질 수 있습니다. 동일부모의 영향까지 고려해서 더 복잡한 모형을 만들었지만 성별이나 연령대별의 영향력의 유의성이 달라지지 않으면 구태여 복잡하게 동일부모의 영향력을 모형에 넣을 필요는 없습니다.

 

물론 좀 더 엄밀히 말해야 하겠지만 더 이상 이야기하면 여러분의 머리가 더 복잡할 것 같아 이 정도에서만 이야기를 하고요.

 

즉 분석하는데 어떤 요인 하에서 독립적이지 않는 경우가 있는가? 요인 레벨2 밑에 있는 레벨1의 값들이 독립적이지 않고 서로 상관관계가 있는가? 또 이런 경우 이 요인을 모형에 포함할 때 분석의 결과가 달라질 정도로 큰 변동이 있는가 이런 것을 고려해야 한다는 것이죠.