실험계획/혼합모형(mixed model)

혼합모형으로 실험효과보기:시차t를 연속변수로 처리

학위논문통계 2023. 9. 29. 19:56

이번에 쓸 이야기는 시차 t를 연속형 변수처럼 처리하는 경우입니다. 연속형 변수로 쓸 것이니까 시차를 ‘1’, ‘2이렇게 문자열로 코딩하면 안되고 숫자 1, 2, 3 이렇게 코딩해야 합니다.

 

인터넷에 검색하면 혼합모형 쓰는 경우로 이 시차 t를 연속형으로 처리하는 예제가 많이 나옵니다.

 

만약 확률효과를 넣지 않으면, 즉 고정효과만 사용하면 이 모형은 독립변수가 시차 t인 단순회귀분석에 불과합니다. 물론 시간에 따라서 종속변수가 올라갔다 내려갔다 이렇게 변할 수 있습니다. 그럼 데이터에 t제곱, t3제곱 이런 변수를 만들어 회귀분석하면 됩니다. 그러나 시차 t가 상당히 커야 합니다.

 

단순히 시차 t 하나의 변수만 독립변수로 하는 경우랑, t, t제곱, t3제곱 이렇게 3개의 변수를 독립변수로 넣어 다항식으로 회귀분석 하는 경우와 비교하면 다항식으로 하는 경우가 무조건 적합도가 좋아집니다. R제곱값이 커집니다. 그러나 우리가 얻은 결과가 robust하지 않습니다. 즉 다른 사람이 똑같은 조건에서 데이터를 얻어 회귀분석을 하면 우리가 얻은 결과와 전혀 다른 결과가 나올 가능성이 큽니다.

 

 

그래서 회귀분석에서 이런 적합도의 문제를 해결하기 위해서 나온 다른 적합도의 기준이 수정결정계수(adjusted R제곱)입니다.

 

 

하여간 이 경우 개인간에 상수항과 기울기가 다르다고 가정하고 모형을 만들면 이젠 혼합모형의 확률효과를 쓴 것이 됩니다. ,

 

고정효과만 쓴 경우: Y=b0+b1*시차t+e

 

고정효과와 확률효과 다 쓴 경우: Y=(b00+b01)+(b10+b11)*시차t+e

 

이렇게 됩니다. 여기서 b01==> 정규분포(0, s1), b11==> 정규분포(0, s2)가 됩니다. 이건 개인간에 y절편과 기울기에서 변동이 있다는 이야기입니다.

 

이건 잘 보면 베이지안 느낌이 많이 듭니다. 즉 상수항 b0==> 정규분포(b01, s1), 기울기 b1==> 정규분포(b10, s2)라는 prior를 주는 것과 비슷한 것 같습니다.

 

베이지안 접근법과 혼합모형 접근법에 대해서 비교하는 것도 좋은 논문주제가 될 수 있겠습니다. 물론 일반 사회과학 논문이 아니라 통계학과 논문이죠. 아마 이미 누가 한 사람이 있을 겁니다.

 

햐여간 실제로 해보면 첫 번째 고정효과, 즉 시차 t를 독립변수로 하는 회귀분석을 하는 경우 지난번 글과 마찬가지로 고정을 클릭하고 시차 t를 선택하고, 통계량에서 모수 추정을 선택하면 회귀분석 결과표를 보여줍니다.

 

아래는 혼합모형을 한 경우와 회귀분석을 이용했을 때의 결과물입니다. 결과물이 서로 일치한다는 것을 알 수 있죠.

두 번째는 회귀분석에서 y절편과 기울기에서 개인간의 변동이 있다는 확률효과를 넣은 모형입니다. , 모형은

 

고정효과와 확률효과 다 쓴 경우: Y=(b00+b01)+(b10+b11)*시차t+e

 

입니다. 이 경우 먼저 SPSS 혼합모형 처음 화면에서

 

시차를 독립변수로 사용할 것이니까 반복에 시차를 넣지 말고 공분산도 지정하지 마세요.

 

다음 공변량, 즉 연속변수에 시차를 지정하고

고정에서 차수를 지정하고 즉, 차수를 독립변수로 사용하겠다는 이야기입니다.

 

 

다음 변량을 선택한 다음 여기서도 시차를 선택합니다. 즉 시차 독립변수에 확률효과가 들어간다는 이야기입니다. 공분산 유형은 디폴트인 분산성분을 사용하고 마지막에 조합에 ID를 지정합니다. 그래야 확률효과가 나옵니다. 그리고 절편 포함도 체크를 해야 합니다. 그래야 y 절편에서도 확률효과가 들어간다는 것입니다.

 

 

마지막으로 앞으로 돌아가서 통계량에서 모수 추정과 공분산 모수 검증을 체크합니다.

 

 

그럼 다음의 결과를 얻습니다.

 

y 절편과 기울기가 처음 결과와 약간 다르다는 것을 알 수 있습니다.

 

그리고 y 절편에 있는 확률효과 분산 s10이 아니다라고 판정이 났지만 기울기에서는 확률효과 분산 s20이라는 판정이 났습니다.

 

그래서 기울기에서는 확률효과를 넣지 않고 고정효과만을 넣는 모형이 더 낫다고 볼 수 있습니다. , 최종모형은 y절편에서만 확률효과를 넣고 기울기에서는 확률효과를 넣지 않는 모형이 바람직하다고 볼 수 있습니다.

 

최종모형: Y=(b00+b01)+b1*시차t+e

 

그런데 우리가 지금 해야 하는 분석에서는 실험 처지가 들어가 있는 집단이 있습니다. 이 집단에 따라서

 

Y=b0+b1*시차t+e

 

가 어떻게 달라지는가 하는 문제입니다.

 

단순하게 고정효과만 생각하면 앞에 쓴 글 Baron & Kenny의 조절효과 보기와 같습니다.

 

, 3개의 처지를 한 집단이 있다고 하죠. 집단A, 집단B, 집단c라고 하죠. 집단 A를 준거범주로 잡으면 위 회귀식은

 

집단A: Y=b0+b1*시차t+e

집단B: Y=(b0+집단B 효과)+(b1+집단B 효과)*시차+e

집단C: Y=(b0+집단C 효과)+(b1+집단C 효과)*시차+e

 

이렇게 되고

 

집단B에서 상수항에서 집단B 효과와 기울기에서 집단B 효과가 전부 0이라고 판정이 되면 준거 범주인 집단A와 집단B는 차이가 없다고 판단합니다. 즉 처치A와 처지B는 종속변수에서 전혀 차이가 없다고 판단합니다.

 

또 집단C에서 상수항에서 집단C 효과와 기울기에서 집단C 효과가 전부 0이라고 판정이 되면 준거 범주인 집단A와 집단C는 차이가 없다고 판단합니다. 즉 처치A와 처지C는 종속변수에서 전혀 차이가 없다고 판단합니다.

 

위 방법은 일반회귀분석에서 집단A=(0,0), 집단B=(1,0). 집단C=(0,1) 이렇게 코딩한 다음 시차t와 곱해서 상호작용항을 만들어 회귀분석을 하면 됩니다. 혼합모형에서는 고정에서 집단과 시차t를 선택해서 집단과 시차t와 집단*시차t을 선택하면 일일이 이진더미변수 만들고 곱하기 해서 상호작용항 만들고 하는 이런 복잡한 과정을 안 걸쳐도 결과물을 내어 줍니다.

 

단 집단B와 집단C에서 차이가 있는지는 판단할 수 없습니다. 이 경우 집단B=0, 집단C=1로 이진변수화를 한번 더 한 다음 다시 조절효과를 검증하는 수밖에 없는데 이게 문제가 좀 많습니다. 다중추론의 문제로서 좀 골치아픈 문제입니다.

 

여기서도 상수항과 기울기에서 개인의 편차를 고려한 확률효과를 넣을 수도 있습니다. 이런 것까지 요구할 것 같지는 않네요. 여러분이 직접 시도를 해 보세요.