실험계획/이원분산분석

일반선형모형과 일반화선형모형:general linear model & generalized linear model

학위논문통계 2024. 6. 22. 19:54

논문을 쓰기 시작한다든지 해서 통계를 잘 해야 하겠다고 처음부터 과욕을 부리기 시작하시는 분들이 종종 계십니다. 그런데 공부하다 보면 일반선형모형, 일반화선형모형 이런 이야기를 부딪치면 바로 좌절을 하시는 분들이 많습니다.

 

너무 걱정하지 마십시오. 여러분이 평생 통계분석 논문을 써도 일반선형모형이나 일반화선형모형을 자세히 부딪칠 일이 없습니다.

 

 

1. 먼저 일반화선형모형(Generalized Linear Model)입니다.

 

통상 회귀분석의 종속변수는 정규분포를 가정합니다. 일반화선형모형은 종속변수가 정규분포가 아닌 경우를 다루는 모형입니다.

 

대표적으로 이항분포, 지수분포, 포아송분포 등 다양한 분포가 있을 수 있습니다.

 

그러나 여러분이 평생 이쪽 공부에서 실제로 부딪치는 경우는 이항분포의 경우 딱 한 경우입니다. 즉 종속변수가 0, 1로 이루어진 이진 더미 변수일 때입니다. 이때는 일반화선형모형 메뉴를 사용하지 말고 로지스틱 회귀분석을 쓰시면 됩니다.

 

SPSS메뉴에서

 

분석==> 회귀분석 ==> 이분형 로지스틱

 

을 고르면 됩니다.

 

 

2. 일반선형모형(GLM)입니다.

 

이 모형은 일반화선형모형과 달리 종속변수가 기존의 회귀분석과 마찬가지로 정규분포를 할 경우입니다. 그러나 독립변수가 다양한 형태로 나오는 모형입니다.

 

여기에 여러분이 가장 골치 아프게 생각하는 변량요인(random factor)이 나옵니다. 이것도 골치 아프게 생각할 필요 없습니다. 평생 변량요인을 논문에 사용할 경우가 없을 겁니다.

 

지금까지의 회귀분석은 종속변수는 정규분포인 연속형 변수, 독립변수는 연속형 변수나 최소한 순서가 있는 순위형 변수(예를 들어, 학력, 연령대 등)를 사용하는 경우입니다.

 

여기서 조금 더 나간다면 범주형 변수를 통제변수로 넣는 경우가 있을 겁니다.

 

통제변수란 이 변수가 종속변수에 영향을 미치지만 우리의 관심대상이 아닌 변수를 말합니다. 관심이 없지만 이 변수를 독립변수로 투입해야 이 변수의 영향력을 배제할 수 있기 때문입니다.

 

예를 들어 이런 것입니다. 우리의 관심은 소득이나 부의 수준이 정당의 지지에 영향을 미치는지입니다.

 

알다시피 부자나 아주 못사는 사람들은 국힘을 지지할 가능성이 많습니다.

 

그러나 우리는 오랜 경험에 의해 자신이 출신지역이나 거주지가 경상도인지 전라도인지에 따라 국힘지지 여부가 많이 달라진다는 것을 알 수 있습니다.

 

따라서 사람들이 출생지가 지지정당 성향에 미치는 영향을 배제하고 순수한 경제력이 지지정당에 미치는 영향을 찾을려면 이 출생지를 통제변수로 회귀분석의 독립변수에 넣어야 합니다.

 

마찬가지로 못사는 사람들이 국힘을 지지하는 이유는 경제력보다도 학력이 낮기 때문입니다. 따라서 이것도 학력의 영향력을 배제하기 위해 학력을 통제변수로 독립변수에 넣어야 합니다.

 

 

일반선형모형은 범주형 자료를 통제변수로 놓은 수준을 넘어 이원분산분석, 삼원분산분석, 거기에다 이제는 반대로 연속형 변수를 통제변수로 넣을 수 있습니다.

 

예를 들어

 

종속변수는 정규분포를 하는 자기효능감이고 독립변수인 2개의 범주형 자료인 연령, 학력, 그리고 1개의 연속형 독립변수인 카리스마가 들어가 있습니다.

 

그리고 옵션에 모수추정값을 체크해야 회귀분석 결과값을 구할 수가 있습니다.

 

그리고 모형을 체크하면 디폴트로 완전요인모형이 선택되어 있습니다. 그럼 바로 실행을 하면 다음의 결과를 얻을 수 있습니다.

 

위의 그림은 분산분석표(ANOVA)와 회귀분석의 결과물입니다.

 

회귀분석 결과물을 보면 우리가 구태여 범주형 자료를 더미변수화하지 않아도 SPSS프로그램이 알아서 더미변수를 하여서 처리를 해 줍니다.

 

이 모형을 수학적으로 표현하면

 

Y(i,j,k)=u+a(i)+b(j)+ab(ij)+b1*X

 

자기효능감(i,j,k)=u+연령(i)+학력(j)+연령*학년(i,j)+b1*카리스마

 

 

, 앞 부분은 범주형변수로 이루어진 일반적인 이원분산분석이고 뒷부분은 단순회귀분석이 결합된 모양이죠.

 

또 이런 모형도 가능합니다. 모형으로 들어가서 항 설정에 체크하고 아래 메뉴에서 주효과에서 연령, 학력, 카리스마를 선택하고 상호작용에서는 학력과 카리스마 2개를 동시에 선택하면 다음과 같은 모형이 됩니다.

 

자기효능감(i,j,k)=u+연령(i)+학력(j)+b1*카리스마+학력(i)*카리스마

 

아래 결과와 같이 카리스마에 대한 학력의 조절효과를 보는 것도 가능합니다.

 

 

즉 일반선형모형은 독립변수로 범주형자료와 연속형변수를 자유자재로 혼합하여 여러 가지 다양한 모형을 만들 수 있습니다.

 

여기서 실험의 효과를 보는 공변량 분석이 가능합니다.

 

따라서 쓸데없는 변량요인, 확률요인, 확률효과, 임의효과 이런 것에 너무 신경쓰지 마세요.

 

다음에는 위 내용의 응용으로 실험의 효과는 보는 공변량 분석을 실제로 한번 해보죠.