논문통계해석하기

모형선택, 적합도, AIC, Kullbak number

학위논문통계 2021. 9. 5. 07:17

지난번에 쓰던 이야기를 계속 해 보죠.

 

흔히 인과모형인 경우는 전체 데이터를 다 쓴다고 했죠. 그리고 인공지능 같은 탐색모형인 경우는 데이터를 쪼개 하나는 학습데이터, 하나는 검증데이터로 쓴다고 했습니다.

 

인과모형의 경우 검증데이타로 쪼개 해 봐자 기껏하는 것이 유의하는가 아닌가 이런 정도입니다. 그리고 이 경우 설문조사를 해서 많이 하는데 박사논문 정도되어도 500명 정도입니다. 통상 저널논문은 200-300개 되고요. 이걸 쪼개면 데이터 수가 너무 줄어 듭니다.

 

이에 반해 인공지능에서는 빅데이터를 사용합니다. 몇 만개에서 몇 십만개 될 수 있습니다. 또한 분류의 오류확률을 정확하게 구해 낼 수 있습니다. 예를 들어 사진을 보고 남녀 구분을 한다고 하면 해당 사진이 이게 남자 사진인지, 여자 사진인지 이미 정답이 데이터에 있다는 것이죠.

 

의료쪽에서 인공지능을 사용한다면 전문가인 의사들이 사진을 보고 무슨 병인지 판단한 정보가 들어 있다는 것이죠.

 

이렇게 정답이 있기 때문에 자신이 분류한 답과 비교해서 오분류 확률을 정확하게 계산해 낼 수 있습니다.

 

이렇게 우리가 분류할 때 이미 정답이 있어 분류과정을 도와주는 것을 supervised 방법이라고 합니다. 대표적인 것이 판별분석이고요. 이런 정답이 없이 분류하는 것을 unsupervised 기법이라 하고 대표적인 예가 군집분석입니다.

 

이게 생물학에서 계통학이라고 하나요. 이런 개념과 비슷한 것이죠. 현재처럼 지식이 풍부한 경우는 분류에 대한 정답 지식이 있지만 처음 인류가 생물을 분류하겠다는 생각을 가질 때에는 정답 지식이 없기 때문에 unsupervised 방식인 군집분석으로 생각을 했다는 것이죠.

 

 

 

적합도를 이야기할 때 모형 선택의 문제가 있다고 했습니다. 모형을 복잡하게 하면 거의 무조건 적합도는 올라갑니다. 그래서 적합도가 높다고 해서 좋은 모형이 아닙니다.

 

그럼 수 많은 모형 중에 어떤 모형을 가장 좋은 모형, 현실을 정확하게 반영하는 모형일까 하는 문제에 부딪칩니다. 정답은 없다고 했죠.

 

그래서 흔히들 많이 쓰는 것이 AIC, BIC, NIC 이런 것들입니다. 가장 유명한 것이 AIC(Akaike information criterion)입니다. 아카이케는 일본 학자입니다.

 

이건 Kullback number라는 일종의 변형 엔트로피를 사용한 것입니다. 이 값이 작을수록 좋습니다. SPSS에 이 값이 잘 안 나오는데 계량경제학 패키지에서는 자주 보는 값입니다.

 

Kullbak number는 이렇게 정의됩니다. 좀 고상하게 쓰면

 

E[log(dP/dQ)]=integral(log(f/g)*f)=summation(log(f/g)*f)

 

 

... 수식이 정확하게 기억은 안 나는데요. 책이나 인터넷에서 한번 찾아 보세요. P는 진짜 확률measure, Q는 틀린 확률measure이고 f는 진짜, 맞는 확률밀도분포, g는 틀린 확률밀도분포입니다.

 

 

뭐 어려운 개념같죠. 간단한 예를 들어볼게요.

 

동전 던지기를 합니다. 동전은 앞면이 나올 확률이 0.9이고 뒷면이 나올 확률이 0.1입니다. 이게 진짜 확률밀도함수 f라는 것이죠.

 

그러나 우리는 이 동전에 대한 정보가 전혀 없기 때문에 전에 한번 쓴 적이 있는데 엔트로피 최대화, 무지의 최대화 원칙에 의해 우리는 앞면이 나올 확률을 0.5, 뒷면이 나올 확률이 0.5로 가정을 한다는 것이죠. 즉 이건 틀린 확률밀도함수 g라는 것입니다.

 

, f: 앞면=0.9, 뒷면=0.1

    g: 앞면=0.5, 뒷면=0.5

 

이렇게 하고 실제로 일일이 계산하여 Kullback number를 구해 보세요. 그럼 개념이 확 잡힐겁니다.

 

 

이건 일종의 거리 개념입니다. 그러나 거리를 계산하는 기점이 진짜 확률밀도함수인 f가 됩니다. 즉 쿨백넘버는 일반적인 거리 개념의 성질인 대칭(symmetry) 성질은 성립이 안됩니다. 일반적인 거리 개념은 여기서 저기까지 거리나 저기서 여기까지 거리나 다 똑같죠.

 

이론적인 통계 공부하시는 분은 AIC 도출되는 과정을 한번 공부하시는 것도 좋을 겁니다. 나중에 나오는 모형선택의 카이제곱 검증 도출과정 (구조방정식 모형 선택에서 나오는 카이검증입니다)도 이 과정과 비슷합니다.

 

위의 AIC, BIC, NIC 등은 그냥 값만 구해주지만 정확하게 검증을 해주지는 못하는 단점이 있습니다.

 

 

모형 선택에서 가장 큰 문제는 우리가 고려해야 하는 모형들이 너무 많다는 것입니다.

 

예를 들어 독립변수가 X1, X2이고 종속변수가 Y인 가장 간단한 회귀분석을 한다고 생각하죠. 그럼 우리가 상상할 수 있는 모형은

 

Y=b0, Y=bo+b1X1, Y=b0+b1X2, Y=b0+b1X1+b1X1^2, Y=b0+b1X1+b2X2^2+b3X1^3, Y=b0+b1X1X2 .... 등등

 

무한대로 가능한 회귀분석 모형을 만들어 낼 수 있습니다.

 

 

그래서 사람들이 생각한 것이 좀 현실적인 가정 하에서 내포모형(nested model)이라는 모델 선택을 생각해냅니다.

 

내포모형에 있는 모형들은 포함관계가 있습니다. 내포모형이란 예를 들어 회귀분석에서

 

M1: Y=bo+b1X1

M2: Y=bo+b1X1+b2X1^2, 또는 Y=b0+b1X1+b2X2

 

이럴 경우 모형 M1M2에서 b2=0인 특수한 경우입니다. M2M1입니다.

 

SPSS의 회귀분석에서 methodenter가 있는데 이 메뉴를 누르면 stepwise, forward, backward메뉴가 있습니다. 이것이 내포모형을 이용해서 최적의 회귀분석 모형을 찾아 주는 것입니다.

 

구조방정식에서 다음과 같은 부분 매개 구조방정식 모형을 설정합니다.

 

 

그러나 결과를 보니까 오늘 코로나 확진자 수 ===> 내일 코로나 확진자 수 경로가 유의하지 않다고 나왔습니다. 그럼 우리는 다음과 같은 좀 더 간단한 완전매개 모형을 설정하고 다시 AMOS를 돌립니다. 그럼 이때 모형은 처음 모형보다 더 개선된 모형이라 할 수 있습니다.

 

 

 

이 완전매개 모형이 맞다면 우리는 매개변수인 마스크 착용만 강력하게 규제를 하면 됩니다. 거리 두기는 별 의미가 없다는 이야기라는 것이죠.

 

즉 이 경우 처음 부분매개모형은 복잡한 M2 모형이 되고 개선된 완전매개모형은 간단한 M1모형이고 M2M1인 내포모형을 우리가 생각한 것입니다.

 

 

'논문통계해석하기' 카테고리의 다른 글

0707자주하는 질문  (0) 2021.09.07
0902자주 질문하는 내용2:현실에서 적용  (0) 2021.09.02
0826자주하는 질문1  (0) 2021.08.26