실험효과분석/이원분산분석교호작용검증

이원분산분석1

학위논문통계 2014. 6. 23. 14:07

 

 

 

 

 

오늘은 이원분산분석이라는 것에 대해 잠깐 알아보죠. Two Way ANOVA라고 하죠. 즉 관심있는 어떤 현상 Y가 있다고 하면 두 개인 요인이 이 Y에 영향을 미친다고 보는 것이죠.

 

 

 

예를 들어 농산물 작황이 온도와 습도라는 두 개의 요인에 의해서 영향을 받는다라든지 아니면 학생의 성적이 성별과 어머니의 학력에 의해 영향을 받는다든지 이럴 경우 이원분산분석을 합니다. 하여간 종속변수 Y는 연속형(이론적으로 정규분포 가정), 요인은 범주형(이론적으로 명목형으로 처리)이어야 합니다. 통상 책에서는 다음과 같이 모형식을 처리합니다.

 

 

 

여기서는 간단하게 처리하기 위해 에러항은 제외했습니다.

 

 

 

 

 

 

알파와 베타는 두 개의 주효과(main effect)와 알파*베타는 상호작용효과(interaction effect, 통계학과에서는 교호작용 효과, 사회과학에서는 조절효과)을 이야기합니다.

 

 

그래서 각각 유의적인 주효과가 있는지 또는 유의적인 상호작용효과가 있는지 가설검증하는 것입니다.

 

 

여기서 중요한 점 몇 가지만 언급하겠습니다.

 

 

1) 이원분산분석은 상호작용효과를 검증하는 모형입니다. 상호작용효과가 유의적이지 않다면 구태여 이원분산분석을 할 필요가 없습니다. 즉, 일원분산분석으로 처리해도 됩니다. 즉, 분석 결과 상호작용효과가 없다고 나왔다면 이원분산분석 모형은

 

 

 

 

 

 

이건 일원분산분석

 

 

 

 

 

 

 

 

를 두 개로 한 것이랑 결과가 정확하게 일치합니다. 단지 이원분산분석을 하면 한번의 분석으로 끝나니까 일원분산분석하는 것보다 표 수는 줄일 수가 있겠습니다.

 

 

 

 

2) 그래서 이 이원분산분석은 상호작용효과가 유의적으로 나와야 의미가 있고, 또 유의적으로 나올 때 이 상호작용효과를 재대로 해석하는 것이 중요합니다. 그래서 SPSS에서도 이 이원분산분석의 경우 상호작용항을 그래프로 보여주기 위해 profile라는 그래프를 제공해 줍니다. 해석은 촉매효과나 아니면 억제작용 이런 것과 비슷합니다.

 

 

 

3) 회귀분석에서는 하나의 독립변수를 넣어 단순회귀분석하는 것이랑 두 개의 독립변수를 동시에 넣는 것이랑 결과가 전혀 다르고 해석도 다르다고 이야기했습니다. 그러나 1)에서 설명한 것과 같이 분산분석에서는 그렇지 않습니다. 이런 내용을 자세히 쓰면 통계 전공 아닌 분들이 보면 너무 골치 아프기 때문에 생략하겠습니다.

 

 

 

혹시 관심있는 사람은 조금 어려운 책을 보시면 제곱합의 분해, 또는 타입1, 타입2, 타입3 이런 용어들을 보실 수 있습니다. 이게 회귀분석에서 설명력을 쪼개는 것과 같은 것을 설명한 부분이니까 이걸 잘 보시면 되고요.

 

 

 

 

그러나 분산분석과 회귀분석의 차이에 대해서는 간단히 이야기를 해야 할 것 같습니다. 앞에서 농산물 작황에 경우 온도나 습도는 분산분석을 하려면 먼저 범주형이 되어야 합니다. 온도의 경우 저온, 상온 고온, 아니면 구체적으로 10도, 20도 30도 이런 식으로 몇 개의 값만 가져야 합니다. 습도로 마찬가지로요.

 

 

 

온도와 습도가 실제로는 순위형, 즉 크기의 개념이 있지만 분산분석에서는 명목형으로 처리합니다. 그래서 온도가 올라갈수록, 습도가 올라갈수록 작황이 어떻게 된다 이런 식의 가설은 검증할 수 없습니다. 단지 온도에 따라, 습도에 따라 작황에서 차이가 있다 이런 식의 가설 검증만 할 수 있습니다.

 

 

 

그러나 회귀분석에서는 두 가지다 가능합니다. 예를 들어 온도에서 저온=1, 상온=2, 고온=3으로 코딩되어 있거나 아니면 실제 온도값 10도, 20도, 30도로 코딩되어 있거나 온도를 하나의 변수로 처리하여 독립변수에 투입하면 온도가 상승할수록 작황이 어떻게 된다 이런식의 가설 검증이나 결과의 해석이 가능합니다.

 

 

 

그러나 회귀분석에서 분산분석처럼 하려면 어떻게 해야 할가요. 회귀분석에서 명목형 변수를 더미변수화 하는 것을 이야기했는데 이걸 이용하면 됩니다. 즉 저온=(0,0), 상온=(1,0), 고온=(0.1)로 코딩하여 상온과 고온 두 개의 더미변수를 독립변수로 투입하면 분산분석과 똑같은 F 값과 p 값을 얻을 수 있습니다. 아래 표를 보죠.

 

 

 

 

 

단일변수

더미변수=분산분석과 같은 결과

변인

회귀계수

변인

회귀계수

상수

 

상수

 

온도

0.234

온도

 

습도

-1.481

상온

0.017

 

고온

 

습도

 

상습

 

고습

 

 

 

 

왼쪽의 회귀분석은 온도와 습도를 순위형으로 처리한 것입니다. 그래서 온도와 습도가 크다 작다의 개념이 있습니다. 따라서 온도가 한 단위 상승하면 작황이 0.234 증가하고 습도가 한 단위 상승하면 작황이 -1.481 하락한다 이런 식의 해석이 가능합니다.

 

 

 

오른쪽 회귀분석은 온도와 습도를 더미변수화 하여 온도, 습도 모두 각각 두 개의 독립변수를 투입한 회귀분석입니다. 여기서는 온도가 올라갈수록, 습도가 올라갈수록 작황이 어떻게 된다 이런식의 가설검증이나 해석이 불가능합니다. 단지 할 수 있는 것은 분산분석에서와 마찬가지로 온도에 따라, 습도에 따라 작황에 차이가 있는가 없는가를 알아볼 수 있습니다. 이것도 1단계, 2단계 회귀분석을 하여 추가적 설명력에 대한 dF을 값을 구해야 합니다.

 

 

 

 

그럼 오른쪽 분석에서 상온에서 나온 0.017은 어떻게 해석될까요? 이것은 회귀분석 글에서 자세히 적혀져 있습니다. 여기서 상온이라는 변수는 상온=1, 저온이나 고온=0 으로 코딩되어 있습니다. 즉 회귀계수가 0.017이라는 것은 상온일 경우 작황이 저온이나 고온일 경우 작황보다 0.017 좋다는 이야기입니다. 물론 이 차이가 유의적인지는 t 검증 값과 p 값을 봐야 하겠죠.

 

 

 

4) 이원분산 분석을 한 논문들을 보면 분산분석표(ANOVA Table)이라는 복잡한 수식이 들어 있는 표를 많이 집어 넣습니다. 쓸데없는 표죠. 여기서 필요한 값은 F 값과 p 값 밖에 없습니다. 그냥 논문에 표 수를 늘리고 남 보기에 상당히 수준 높은 분석을 한 것 같이 펭끼를 쓴 것입니다. 실제 이원분산분석 해석시 아무런 쓸모없는 값들입니다.

 

 

 

 

5) 앞에서 이원분산분석에서 진짜로 중요한 것은 상호작용항이라고 했습니다. 그래서 다음 글에서는 상호작용항을 그린 profile 그래프를 소개하고 이원분산분석의 상호작용항 분석이 교육학 등에서 많이 하는 실험의 효과를 검증하는데 어떻게 이용되는지 설명하겠습니다. 문대성씨 논문이 말썽이 많아서 한번 봤는데 처음에는 저는 이 분석이 틀린 줄 알았습니다. 그러나 좀 생각해보니까 기존의 사전-사후 검증이나 아니면 공변량 분석을 하지 않고도 이런 식으로도 검증이 가능하다는 것을 알았습니다. 문대성씨 고마워요.

'실험효과분석 > 이원분산분석교호작용검증' 카테고리의 다른 글

이원분산분석시 주의점  (0) 2020.06.24
이원분산분석2  (0) 2014.06.24