교차분석,카이제곱/이론

로그선형(linear), 트리(Tree) 모형

학위논문통계 2013. 3. 13. 00:38

 

교차분석에서 조금 더 확장된 형태를 조금 살펴보죠.

 

1. 로그선형모형(log-linear 모형)

 

지난번에 두 개의 변수만 생각한 교차분석의 분할표를 살펴보았습니다. 만약 두 개의 변수 X, Y가 독립이라고 하면 분할표안에 ij칸 에 있는 빈도수 n(ij)는 어떻게 될까요?

 

지난번 예 흡연여부(X)와 페암여부(Y)의 경우를 살펴보죠. 표안에 있는 값은 전부 빈도입니다.

 

구분

비폐암

폐암

빈도

비흡연

n(11)

n(12)

N1

흡연

n(21)

n(22)

N2

빈도

M1

M2

전체 M

 

그럼 흡연여부와 폐암여부가 독립이라면 앞의 글처럼 칸안의 비율은 서로 곱하기 해서 나옵니다.

 

즉 독립이라면

 

n(11)/M = (N1/M) * (M1/M)

n(21)/M= (N1/M) * (M2/M)

..

 

이런 식이 되겠죠. 일반적으로 쓰면

 

n(ij)/M= (N(i)/M) * (M(j)/M)

 

이런식으로 되고요. 곱하기 형태가 있으니 불편해서 log을 취해 줍니다. 그러면

 

log(n(ij))=log(M)+log(N(i)/M)+log(M(j)/M)

=u+ 알파j +베타j   ==> 첨자가 i 입니다. 아래 식 (2)도 마찬가지고요.                                  (1)

 

이런 식으로 더하기 형태인 선형 모형이 됩니다. 이런 모양은 자주 보죠. 2원분산분석의 경우와 모양이 비슷합니다.

 

즉 흡연여부와 폐암여부을 조사하기 위해 관찰한 데이터가 위의 모형이 잘 적합하면 흡연여부와 폐암여부와는 독립이라고 생각합니다. 즉 흡연여부가 폐암여부에 영향을 몫 미친다고 보는 것이죠.

 

만약 관찰된 데이터가 위의 모형과 잘 적합하지 않으면 위 모형보다 좀 더 복잡한 모형을 사용해야 합니다.

 

 

log(n(ij))=log(M)+log(N(i)/M)+log(M(j)/M)+{log(N(i)/M)*log(M(j)/M)}

=u+ 알파j +베타j +{알파j * 베타j}                                       (2)

 

 

 

 

즉 독립모형만으로 설명 못하는 데이터 부분을 설명하기 위해 좀 더 복잡한 항목, 즉 교호작용 항목을 집어 넣어 새로운 모형을 만듭니다. 분명 앞의 (1) 모형보다 뒤의 (2) 모형이 더 커죠.

 

이건 작업 형태을 이해하는 것은 중요합니다. 그러나 일반인에게는 그리 아실 필요가 없고요. 뒤의 큰 모형을 Saturated Model, 또는 Full Model 이라고 합니다. 기본적인 아이디어만 아시면 됩니다.

 

처음에 간단한 모형부터 시작해서 마음에 안들면 조금씩 복잡한 모형을 시도해 본다. 반대로 할 수도 있습니다. 처음에 제일 큰 모형부터 시작해서 조금씩 안 좋은 항목을 줄여서 적절한 수준의 작은 모형으로 만든다. 지금 설명한게 SPSS 회귀분석에서 Method 해서 후진, 전진 이런 메뉴 선택판이 나오는 것이 이 작업을 하는 것입니다.

 

지금까지 설명한 작업을 변수가 X와 Y 두개만 있는 경우만 아니라 X1, X2, X3, X4... 등 여러 개의 범주형 자료가 있는 경우에도 적용될 수 있겠죠. 이렇게 범주형 변수가 여러개인 경우 교차분석에서는 사실상 불가능하죠. 

 

 

 

 

2. 트리 모형(Decision Tree)

 

종속변수, 반응변수, 즉 우리가 관심있는 변수가 연속형인 경우 Regression Tree라고 하고, 범주형일 경우 Classification Tree라고 구별하기도 합니다. 제가 알기로는 SPSS에서는 메뉴에는 없고==>찾아보니까 메뉴에도 있네요, SPSS에서 명령문에는 있는 것으로 압니다. SPSS에서 나오는 데이터마이닝 툴안에는 분명히 메뉴에 있을 겁니다. 요새 이야기 하는 Big Data 분석하는데 필요한 통계 기법이거든요.

 

또 다시 흡연여부와 폐암여부로 돌아가 보죠.

 

다음 세 가지 상상의 경우가 있다고 생각해보죠. 안에 값은 비율, 즉 확률이고 앞에 이야기한 두 번째 비율입니다.

 

1)

구분

비폐암

폐암

비흡연

0.5

0.5

흡연

0.5

0.5

 

 

 

  2)

구분

비폐암

폐암

비흡연

0.5

0.5

흡연

0.1

0.9

 

 

 

3)

구분

비폐암

폐암

비흡연

0.9

0.1

흡연

0.1

0.9

 

 

만약 여러분이 의사라고 하면 위의 세가지 경우 중 어느 쪽을 가장 좋아하겠습니까?

당연히 세 번째 경우이겠지요. 흡연 여부만 봐도 폐암에 걸렸는지 안 걸렸는지 거의 정확하게 알 수 있죠. 틀리게 진단할 가능성은 0.1 밖에 안됩니다. 이런 경우 동질적이라 이야기 합니다.

 

최악의 경우가 첫 번째 경우입니다. 이건 흡연 여부가 폐암 진단에 전혀 도움이 되지 않습니다. 이런 경우 이질적이라고 합니다.

 

2)번째의 경우 흡연을 하는 경우는 바람직합니다. 그러나 흡연을 하지 않는 경우의 폐암 여부 판단에 전혀 도움이 안됩니다. 그럼 흡연여부를 먼저 알아보고 만약 담배를 피지 않는다면 두 번째 새로운 변수를 가지고 폐암여부를 알아봐야 하겠죠.

 

이런 식으로 두 개의 경우로 쪼개 가능하면 동질적인 집단으로 나올 때 계속 쪼개 가 분석하는 것을 트리 모형이라 합니다. 컴퓨터 프로그램 공부하시는 분이면 익숙한 알고리즘입니다.

 

의사들이 실제 의사결정하는 과정과 유사하겠죠. 여기서 의료의 경우 생명의 문제가 깔려 있으니까 가능하면 가장 동질적인 경우를 만들기 위해 내시경이나 CT 촬영 등 우리 몸안을 조사하거나 사진을 찍으려고 노력하는 것이죠.

 

여기서는 질환이 있고, 없고인데, 다른 응용에서는 사람들이 물건을 사고, 안사고, 또 기업이 부도나고 안나고 이런 곳에 다양하게 응용될 수 있습니다. 단지 다른 통계 모형과 달리 분명한 수학 모형식이 없고 탐색적으로 분석하는 모형입니다.

 

사실 우리 몸을 찍는 촬영 같은 곳에서도 통계학이 사용됩니다.

 

Y. Avrdi, L. A. Shepp, and L. Kaufman(1985), Emission Tomography, ASA

 

논문을 참조하시면 됩니다. 최근에 이 연구가 어디까지 진행되었는지는 모르겠고요. 제가 본 것 이 논문밖에 없어서요.

 

하여간 통계학이 일반 사회과학뿐만 아니라 다양한 분야에서 응용이 됩니다.

 

최근 미래창조과학부 수장에 ATM이라는 네트웤 장비를 만든 사람을 세우려고 했다가 실패했는데 참 깜깜합니다. 기껏 네트웍 기계하나 만들어 성공했다고 사실상 다른 나라 사람을 한 나라의 정책 수장으로 세우려는 생각이 도저히 이해가 안됩니다. ATM이야 30년 전에 나온 이야기인데요. 이것보다 왜 한국에서는 네트웍 기계를 만드는 회사가 망했는지 이런 것부터 고민하는 것이 더 나겠죠. 미래창조과학부 수장 정도 되려면 최소한 다양한 과학 분야에 관심이 있어야 하고, 그리고 여러 분야에서 학생이나, 교수, 연구원들이 창조적 생각을 이끌어 낼 수 있는 철학을 가진 분을 모셔야죠.

 

다음 그림은 차의 weight와 reliabilty를 가지고 차의 마일리지를 분석한 트리 분석 그림입니다. 이 그림은 S-plus manual에 있는 그림입니다.

 

 

 

 

 

 

 

 

기타 교차분석에서 multiple choice 분석으로 확장되는 것도 있는데 시간나면 쓰기로 하죠.