학위논문통계 2024. 7. 25. 10:22

2. 트리 모형(Decision Tree)

종속변수, 반응변수, 즉 우리가 관심있는 변수가 연속형인 경우 Regression Tree라고 하고, 범주형일 경우 Classification Tree라고 구별하기도 합니다.

의사결정트리의 예입니다. 차의 중량과 마일리지 관계를 의사결정트리로 분석한 것입니다.

또 다시 흡연여부와 폐암여부로 돌아가 보죠.

다음 세 가지 상상의 경우가 있다고 생각해보죠. 안에 값은 비율, 즉 확률이고 앞에 이야기한 두 번째 비율입니다.

1)

구분
비폐암
폐암
비흡연
0.5
0.5
흡연
0.5
0.5

2)

구분
비폐암
폐암
비흡연
0.5
0.5
흡연
0.1
0.9

3)

구분
비폐암
폐암
비흡연
0.9
0.1
흡연
0.1
0.9

만약 여러분이 의사라고 하면 위의 세가지 경우 중 어느 쪽을 가장 좋아하겠습니까?

당연히 세 번째 경우이겠지요. 흡연 여부만 봐도 폐암에 걸렸는지 안 걸렸는지 거의 정확하게 알 수 있죠. 틀리게 진단할 가능성은 0.1 밖에 안됩니다. 이런 경우 동질적이라 이야기 합니다.

최악의 경우가 첫 번째 경우입니다. 이건 흡연 여부가 폐암 진단에 전혀 도움이 되지 않습니다. 이런 경우 이질적이라고 합니다.

2)번째의 경우 흡연을 하는 경우는 바람직합니다. 그러나 흡연을 하지 않는 경우의 폐암 여부 판단에 전혀 도움이 안됩니다. 그럼 흡연여부를 먼저 알아보고 만약 담배를 피지 않는다면 두 번째 새로운 변수를 가지고 폐암여부를 알아봐야 하겠죠.

이런 식으로 두 개의 경우로 쪼개 가능하면 동질적인 집단으로 나올 때 계속 쪼개 가면서 분석하는 것을 트리 모형이라 합니다. 컴퓨터 프로그램 공부하시는 분이면 익숙한 알고리즘입니다.

의사들이 실제 의사결정하는 과정과 유사하겠죠. 여기서 의료의 경우 생명의 문제가 깔려 있으니까 가능하면 가장 동질적인 경우를 만들기 위해 내시경이나 CT 촬영 등 우리 몸안을 조사하거나 사진을 찍으려고 노력하는 것이죠.

여기서는 질환이 있고, 없고인데, 다른 응용에서는 사람들이 물건을 사고, 안사고, 또 기업이 부도나고 안나고 이런 곳에 다양하게 응용될 수 있습니다. 단지 다른 통계 모형과 달리 분명한 수학 모형식이 없고 탐색적으로 분석하는 모형입니다.

사실 우리 몸을 찍는 촬영 같은 곳에서도 통계학이 사용됩니다.

Y. Avrdi, L. A. Shepp, and L. Kaufman(1985), Emission Tomography, ASA

논문을 참조하시면 됩니다. 최근에 이 연구가 어디까지 진행되었는지는 모르겠고요. 제가 본 것 이 논문밖에 없어서요.

하여간 통계학이 일반 사회과학뿐만 아니라 다양한 분야에서 응용이 됩니다.