1. 로그선형모형(log-linear 모형)
지난번에 두 개의 변수만 생각한 교차분석의 분할표를 살펴보았습니다. 만약 두 개의 변수 X, Y가 독립이라고 하면 분할표안에 ij칸 에 있는 빈도수 n(ij)는 어떻게 될까요?
지난번 예 흡연여부(X)와 페암여부(Y)의 경우를 살펴보죠. 표안에 있는 값은 전부 빈도입니다.
구분
|
비폐암
|
폐암
|
빈도
|
비흡연
|
n(11)
|
n(12)
|
N1
|
흡연
|
n(21)
|
n(22)
|
N2
|
빈도
|
M1
|
M2
|
전체 M
|
그럼 흡연여부와 폐암여부가 독립이라면 앞의 글처럼 칸안의 비율은 서로 곱하기 해서 나옵니다.
즉 독립이라면
n(11)/M = (N1/M) * (M1/M)
n(21)/M= (N1/M) * (M2/M)
..
이런 식이 되겠죠. 일반적으로 쓰면
n(ij)/M= (N(i)/M) * (M(j)/M)
이런식으로 되고요. 곱하기 형태가 있으니 불편해서 log을 취해 줍니다. 그러면
log(n(ij))=log(M)+log(N(i)/M)+log(M(j)/M)
=u+ 알파j +베타j ==> 첨자가 i 입니다. 아래 식 (2)도 마찬가지고요. (1)
이런 식으로 더하기 형태인 선형 모형이 됩니다. 이런 모양은 자주 보죠. 2원분산분석의 경우와 모양이 비슷합니다.
즉 흡연여부와 폐암여부을 조사하기 위해 관찰한 데이터가 위의 모형이 잘 적합하면 흡연여부와 폐암여부와는 독립이라고 생각합니다. 즉 흡연여부가 폐암여부에 영향을 몫 미친다고 보는 것이죠.
만약 관찰된 데이터가 위의 모형과 잘 적합하지 않으면 위 모형보다 좀 더 복잡한 모형을 사용해야 합니다.
log(n(ij))=log(M)+log(N(i)/M)+log(M(j)/M)+{log(N(i)/M)*log(M(j)/M)}
=u+ 알파j +베타j +{알파j * 베타j} (2)
즉 독립모형만으로 설명 못하는 데이터 부분을 설명하기 위해 좀 더 복잡한 항목, 즉 교호작용 항목을 집어 넣어 새로운 모형을 만듭니다. 분명 앞의 (1) 모형보다 뒤의 (2) 모형이 더 커죠.
이건 작업 형태을 이해하는 것은 중요합니다. 그러나 일반인에게는 그리 아실 필요가 없고요. 뒤의 큰 모형을 Saturated Model, 또는 Full Model 이라고 합니다. 기본적인 아이디어만 아시면 됩니다.
처음에 간단한 모형부터 시작해서 마음에 안들면 조금씩 복잡한 모형을 시도해 본다. 반대로 할 수도 있습니다. 처음에 제일 큰 모형부터 시작해서 조금씩 안 좋은 항목을 줄여서 적절한 수준의 작은 모형으로 만든다. 지금 설명한게 SPSS 회귀분석에서 Method 해서 후진, 전진 이런 메뉴 선택판이 나오는 것이 이 작업을 하는 것입니다.
지금까지 설명한 작업을 변수가 X와 Y 두개만 있는 경우만 아니라 X1, X2, X3, X4... 등 여러 개의 범주형 자료가 있는 경우에도 적용될 수 있겠죠. 이렇게 범주형 변수가 여러개인 경우 교차분석에서는 사실상 불가능하죠.