통계이론/혼합모형공분산행렬

공분산행렬1:compound symmetry

학위논문통계 2022. 11. 3. 08:56

혼합모형이 기존의 모형과 가장 다른 점은 공분산 행렬의 모양입니다.

 

Y=시스템 부분+e

 

라 하면

 

시스템 부분은

평균 구하는 것이면 단순한 전체 평균 u,

회귀분석이면 b0+b1*X1+b2*X2,

분산분석이면 u+a+b+a*b 이런 것들이 들어가겠죠.

 

그럼 종속변수 Y의 공분산 행렬은 오차항의 공분산 행렬과 같고, 또 독립이면 오차항의 공분산 행렬도 독립의 경우가 들어갑니다. 즉 다음의 형태입니다.

혼합모형에서는 이 공분산 행렬을 분석가가 지정을 해야 합니다. 혼합모형 메뉴를 보면 첫 화면에 다음과 같은 메뉴가 뜹니다.

즉, 개체(subject)를 지정하고, 시간을 나타내는 시차 변수를 지정하고 그 밑에 반복 공분산 타입에서 시차에 따른 공분산 행렬을 지정해야 합니다. 그럼 어떤 경우에 어떤 공분산 행렬 타입을 지정해야 할까 하는 문제가 생깁니다. 메뉴를 보면 굉장히 많습니다. 이걸 다 아실 필요가 없고 중요한 것 몇 개만 소개하겠습니다.

spss에서는 가장 바람직한 공분산행렬을 자기가 알아서 선택해주지 않습니다. 본인이 판단해서 이 메뉴에서 선택을 해야 합니다.

원칙적으로는 데이타 형태를 long format 형태를 wide format으로 고쳐서 Y(t=1), Y(t=2), Y(t=3)의 상관계수를 구한 다음 판단을 이 상관계수 행렬을 보고 판단을 해야 합니다. 그러나 그렇게 잘 안하죠. 중요한 공분산 행렬를 이리 저리 시도해 봐서 원하는 결과가 나오는 공분산 행렬을 택하죠.

그러나 몇 번 강조하지만 사회학적으로나 과학적으로나 매우 중요한 문제, 꽤 돈이 많이 들어가는 프로젝트는 원칙적으로 해야 합니다.

지금은 동일 개체에 3번 정도 시차를 두고 측정했다고 하죠. 그럼 Y(t=1), Y(t=2), Y(t=3)의 공분산 행렬, 즉 오차항의 공분산 행렬은 독립의 경우 다음과 같습니다. 독립을 가정하는 그냥 일반적인 분산분석의 경우이죠.

1. 독립

이 공분산 모양은 축약된 형태입니다. 만약 실험집단의 사람이 2명이고 통제집단의 사람이 2명이면 12*12 크기의 행렬이 됩니다. 즉 원래 공분산 행렬의 모양은

​​

비워 있는 부분은 전부 0입니다. 즉 실험집단이든 통제집단이든 개체간에는 서로 독립이고 특정 개체내에서 시차간의 관찰변수만이 서로 상관관계가 무엇이지 보는 것입니다.

이것 좀 골치 아픈 문제인데요. 집단간에는 정말 서로 독립일까 하는 문제입니다. 예를 들어 우리나라의 경우 경상도와 전라도의 정치 성향이 완전히 다릅니다. 여론조사에서 경상도나 전라도에서 랜덤하게 응답자를 뽑았다고 해도 경상도 사람끼리, 또는 전라도 사람끼리 정치성향이 서로 독립적이라 말할 수 있을까 하는 문제입니다.

한편 서울 등 경기도 지역에서는 랜덤하게 뽑으면 서로 독립적이라고 가정해도 별 문제가 없을겁니다. 경상도나 전라도 지역 향우회에 열심히 참가하지 않는다면 자기의 주관적 판단이나 주변에 자신이 신뢰하는 사람들의 의견에 따라 달라질겁니다. 또 경상도나 전라도의 경우라도 젊은 층으로 갈수록 정치적 성향이 독립적일 가능성이 높습니다.

이렇게 통계학에서는 정답이 없습니다. 분석하는 사람의 주관적 판단이 매우 중요하고 자산의 이 주관적 판단이라고 해도 다른 사람들이 봐서 합리적이라고 생각이 들어야 한다는 것이죠.

하여간 이렇게 사람들의 의견이나 행동이 몰리는 것에 대해 이런 저런 용어를 써서 많이들 이야기하는데요.

최근에는 FoMo(Fear of missing out) 이라는 용어를 씁니다. 소외나 왕따에 대한 두려움이라고 해석되죠. 소셜미디어의 인기도 이걸로 해석이 가능합니다. 물론 처음 시작할 때는 이 FoMo의 영향이 커지만 나중에 시간이 지나면 이 효과는 줄어들죠. 남들이 다 하니까 따라 했는데 해 봐야 재미없으면 관두는 것이죠.

하여간 위의 경우는 독립인 경우의 공분산 행렬이고요. 독립이 아닌 경우 다음으로 많이 나오는

2. compound symmetry

이런 모양이 나옵니다. 그래서 실험집단이든 통제집단이든 개체간에는 서로 독립니다. 특정 개체 내에서 시차간에는 서로 상관관계가 있다는 것입니다. 그런데 이 시차간에 상관관계는 (t=1, t=2), (t=1, t=3), (t=2, t=3) 간에는 서로 일정하다는 것입니다.

그래서 각 시차별 변수를 가지고 상관계수를 돌렸을때 시차간에 서로 상관계수가 비슷하다면 이 compound symmetry 공분산 행렬을 선택하시면 됩니다.

그러나 각 시차간에 상관관계수 전부 다 뚜렷하게 다르다면 이 경우 Unstructured을 선택하시면 됩니다.

다음부터는 생략형 공분산 행렬만 표시하겠습니다. 그러나 여러분은 full모양의 공분산 행렬을 생각하셔야 하고 실제 모형의 추정이나 가설검증은 이 full 공분산 행렬을 사용해서 합니다.

또 이 full 공분산 행렬을 보면 대각선 라인 주변에 따라 모양이 다르고 이 대각선 라인 주변 옆에는 모두 독립을 가정하여 0이 나옵니다. 그래서 이런 모양의 공분산 행렬을 block diagonal 공분산이라는 용어를 쓸 겁니다.

다음에 계속 쓰죠. 수식 표현을 집어 넣어야 해서 시간이 많이 걸리네요.

3. Unstructured