반복측정(repeated measure)은 왜 문제인가?
반복측정 이야기만 나오면 머리를 싸매시는 분들이 계시는데요.
반복측정은 실험의 효과를 보려는 경우, 그래서 의료나 보건쪽에서 자주 나오는 상황입니다. 특히 실험계획이라 해서 매우 복잡한 형태의 반복측정 모형이 여러 개 나옵니다.
실험의 효과를 측정하려면 동일한 개체에 대해서 여러번 측정을 해야 합니다. 동일한 개체에서 측정하기 때문에 각 측정치간에 서로 상관관계가 있다고 봐야 합니다.
학위논문에 가장 자주 쓰이는 방법인 사전 동질성, 사후 차이 검증도 사전에 한번 측정하고 사후에 또 한번 측정하고 2번 측정을 합니다. 효과의 지속성을 보려면 차후에 또 한번 볼 수 있죠.
그럼 반복측정할 경우 무슨 문제가 생길까요. 이걸 이해를 하려면 통계 이론을 좀 알아야 합니다.
답만 먼저 말하면 반복측정을 하지 않는 경우, 예를 들어 설문지 조사나 여론 조사의 경우 공분산행렬이 기본적으로 분산을 제외하고 항등행렬(identity matrix)의 형태를 취하게 됩니다.
즉,
공분산 행렬
이런 형태를 취합니다. 여기서 우리는 데이터에서 모르는 모수 분산만 추정해 내면 됩니다.
그러나 데이터가 100개만 있다고 해도 측정치 Y1, Y2, Y3,..., Y100가 독립이 아니고 반복측정의 경우 공분산행렬은 약 (100*100)/2=5,000개의 추정해야 할 모수가 생깁니다. 여기서 모수는 그냥 중고등학교 수학에서 나오는 미지수라고 생각하시면 됩니다.
약 5,000개의 미지수를 추정해야 한다. 현실적으로 불가능합니다.
그래서 공분산 행렬은 반복측정이 아닌 독립의 경우인 항등행렬까지는 아니지만 가능하면 간략한 형태의 공분산 행렬을 가정하고 문제에 접근해야 합니다.
통계이론==> 혼합모형 공분산행렬 편을 한번 보시기 바랍니다.
다양한 형태의 간단한 모양의 공분산 행렬이 있습니다. 어떤 공분산 행렬을 가정하는가에 따라 결과가 좋아질 수 있습니다.
자. 그럼 약간 이론으로 들어갈까요.
시계열이나 반복측정이 아닌 일반 횡단면 자료의 경우 우리가 가진 데이터 Y1, Y2, ,,,, Yn에서 모수(parameter)라는 것을 추정해야 합니다. 가장 대표적인 모수가 평균이고 표준편차가 되는 것이죠.
그럼 이때 해야 하는 첫 번째 일이 데이터 Y들의 확률분포함수를 곱하는 것입니다.
즉 f(y1, y2, y3, ..., yn)=f(y1)*f(y2)*f(y3)***f(yn)
왜 곱할까요. 시계열 자료나 반복 자료가 아니기 때문에 서로 독립이거든요. 독립의 사건은 결합확률은 서로 곱하면 됩니다.
곱하면 수식이 매우 복잡해질 것 같지만 대부분 지수함수의 모양을 띄고 있어 log 함수를 취하면 매우 간단한 수식으로 변합니다.
즉
log f(y1, y2, y3, ..., yn)=log(f(y1))+log(f(y2))+log(f(y3))+++log(f(yn))로 우측 수식이 매우 간단하게 변합니다.
실제로 복잡한 정규분포도 log 취하면 매우 간단한 함수형태로 바뀝니다.
이런 방법으로 데이터 Y1에서 Yn로부터 모수를 추정하는 방법을 최대우도추정법(maximum likelihood estimation)이라고 하고 주류 통계학은 거의 다 이 방법을 따릅니다.
그러나 횡단자료와 달리 시계열자료나 반복측정자료는 위와 같은 방법으로 결합확률분포를 만들 수가 없습니다.
그래서 대부분 경우 다변량 정규분포를 가정하고 이 다변량 정규분포에서 공분산 행렬도 다시 간략한 형태로 가정해서 문제를 해결합니다.