혼합모형(Mixed Model)/고정효과(Fixed)와 확률(Random)효과

고정효과와 확률효과 개념 이해

학위논문통계 2019. 3. 26. 15:37


 

먼저 고정효과와 확률효과를 이야기하기 전에 기초를 위해 분산분석에 대해 간단히 이야기를 해 보겠습니다.

 

일원분산분석부터 이야기를 하죠. 학생들의 성별에 따라 학생들의 수학성적에서 차이가 있는지 알고 싶습니다. 즉 성별이 학생들의 수학성적에 유의미한 영향력이 있는지 알고 싶은 것입니다. 그럼 이 경우 수학적 모형은 다음과 같습니다.

 

 

수학점수ij=전체 수학점수 평균+성별i+오차항ij

 

 

 

여기서 일반적으로 하듯이 오차항은 평균이 0이고 표준편차가 인 정규분포를 가정합니다.

 

성별1은 남자의 수학점수 영향, 성별2=여자의 수학점수 영향이고, 따라서 성별1+성별2=0으로 가정됩니다. 뭐 자세한 것은 알 필요가 없습니다. 말로 바꾸면

 

남자의 수학점수=전체 평균+남자의 수학점수 영향+오차항

여자의 수학점수=전체 평균+여자의 수학점수 영향+오차항

 

이렇게 이야기됩니다.

 

여기서 우리가 알고 싶은 것은 남녀간의 수학점수에서 차이가 있는지, 즉 성별이 수학에 유의적인 영향력이 있는지를 알고 싶은 것입니다.

 

즉,

 

남자의 수학점수 영향=여자의 수학점수 영향=0 이라는 귀무가설이 맞는지 틀리는지 알고 싶은 것입니다.

 

그래서 데이터를 모아 가설검증 결과 남자의 수학점수 영향과 여자의 수학점수 영향이 유의적으로 차이가 있는지 알아봅니다. 이게 학부 1학년에서 배우는 t 검증입니다.

 

따라서 t 검증은 일원분산분석(oneway ANOVA)의 특별한 케이스입니다. 즉 성별이라는 요인(독립변수)이 0하고 1인 값만 취하는 이진변수일 경우 t 검증은 일원분산분석의 F 검증과 정확하게 일치합니다. 실제로 t 검증에서 나오는 t 값을 제곱하면 분산분석에서 나오는 F 값과 정확하게 일치합니다.

 

t2=F

 

t 검증은 일원분산분석을 해도 똑같은 결과가 나온다는 것이죠. 일원분산분석에서 나온 F 값을 제곱근하면 t 검증에서 t 값을 정확하게 계산할 수 있습니다. 그리고 유의성을 판단하는 p 값은 일원분산분석의 F 검증이나 t 검증이나 정확하게 일치합니다.

 

 

위의 일원분산분석에서 좀 더 현실적인 변수, 요인을 더 추가해보죠. 수학점수가 성별뿐만 아니라 수학 사교육 여부에 따라 수학점수가 달라질 수 있다고 생각할 수 있습니다. 그러면 이젠 성별뿐만 아니라 사교육 여부라는 두 개의 요인, 독립변수가 모형에 들어갑니다. 그럼 2원 분산분석이 됩니다.

 

수학점수는

 

 

수학점수ijk=전체 수학점수 평균+성별i+사교육j+오차항ijk

 

 

이렇게 됩니다.

 

 

그러면 이젠 Mixed Model에 대해서 이야기를 해보죠. 이 혼합모형에서는 고정효과(fixed effect)와 확률효과(random effect) 모형이 있습니다.

 

다음과 같은 실험을 한번 상상해보죠. 어떤 물질에 화학약품 A, B, C를 투하하였을 경우 해독가스가 나온다고 생각해보죠. 화학약품 A, B, C를 투하할 경우 각 화학약품 투하별로 유출되는 해독가스의 양이 같은지 아니면 뚜렷하게 차이가 있는지 알고 싶은 것입니다.

 

그런데 실험을 해보니까 이게 주변의 온도에 따라 해독가스의 양이 달라진다는 것을 알았습니다. 그럼 이젠 온도도 고려해야 할 변수로 나온 것입니다.

 

 

 

그럼 온도를 저온, 상온, 고온으로 나눠 실험실에서 저온, 상온, 고온 각각이 경우에 따라 실험을 합니다. 그럼 우리의 모형식은 간단히 쓰면 이렇게 됩니다.

 

 

해독가스양=화학약품+온도+에러항

 

이 경우 우리가 온도를 저온, 상온, 고온 이렇게 구체적으로 통제를 하였기 때문에 이 경우 고정효과라 합니다. 그러나 실험실 상황상 우리가 온도를 통제를 못한다고 하죠. 즉 온도가 중구난방으로 측정이 됩니다. 그럼 이 경우 온도는 어떤 확률분포에서 나오는 우연한 값이라 생각할 수 있습니다. 그럼 위의 간단한 모형식은 개념을 같지만 이 경우 확률효과 모형이라 이야기합니다.

 

 

이런 실험실에서 통제하지 못하는 경우는 자주 나옵니다. 산림청에서 나무 성장을 관찰한다든지, 아니면 농수산부에서 쌀 수확량 관찰하는데서 비료의 종류가 미치는 영향을 실험할 경우 온도를 통제하기가 쉽지 않습니다. 이 경우는 외부 농지에서 실험을 해야 하기 때문에 바깥 기온을 통제하기가 쉽지 않습니다.

 

그래서 데이터상에서 고정효과와 확률효과를 비교해 보면

 

유독가스(mg)

화학물질

온도

고정효과

확률효과

104.3

A

상온

17.3C

221.2

B

싱온

18.2C

183.2

A

고온

23.5C

432.1

C

저온

10.8C

198.2

C

저온

9.4C

88.4

B

고온

27.2C

237.3

A

저온

11.3C

287.1

A

싱온

16.4C

...

...

...

...

 

 

 

또는 편의점에서 상품 판매를 조사할 때 우리가 먼저 편의점 위치를 몇 가지로 설정해서 거기에 맞춰 조사 편의점을 뽑을 수가 있습니다. 단독주택가, 아파트 지역, 대로변, 전철역 주변 이렇게 편의점을 4가지 유형으로 나눠 조사하면 이때 편의점 위치의 영향을 고정효과로 봐야 합니다.

 

이렇게 조사하지 않고 도시 내에서 그냥 랜덤하게 편의점을 뽑아서 조사하면 이때 편의점 위치의 영향은 확률효과가 되는 것입니다.