연구모형만들기/연구모형만들기

모형선택2

학위논문통계 2022. 8. 7. 14:12

모델 선택 이론은 통계학과라고 해도 학부 통계에서는 거의 나오지 않습니다. 요즘에도 그럴겁니다. 대학원 수준의 교재를 봐야 나오고 또 현실 분석에서는 거의 쓰지 않아서 그리 중요하게 다루지 않습니다.

 

 

그런데 최근에 많이 쓰는 구조방정식에서 이 모형선택이 여기 저기에 나옵니다. 그런데 시중에 나와 있는 책들이 통계 이론을 잘 모르는 사람들이 써서 이게 모형선택을 하는 것이라는 것을 잘 몰라서 설명이 잘 되어 있지 않습니다.

 

그래서 일단 모형선택이라는 개념이 이런 것이다라는 정도만 이해를 하고 다음번에 구조방정식에서 어떻게 사용되는지 한번 구체적으로 알아보겠습니다.

 

 

 

먼저 통계학에서 가장 많이 나오는 회귀분석의 경우를 생각해보죠. 종속변수가 Y, 독립변수가 X1, X2, X3, X4, X5가 있다고 하죠.

 

그럼 2개의 모형 M1과 M2를 생각해보죠.

 

M1: Y=b0+b1*X1+b2*X3

 

M2: Y=b0+b1*X1+b2*X3+b3*X2+b4*X5

 

 

그럼 분명히 M2가 M1보다 더 복잡한 모형입니다. M1에는 독립변수가 X1, X3만 들어가 있는데 M2에서는 X1과 X3뿐만 아니라 추가로 X2와 X5가 더 추가된 것입니다.

 

그럼 여기서 간단한 모형 M1과 복잡한 모형 M2 중 어떤 것이 우리의 데이터에 가장 적절한 모형인가를 어떻게 판단할 가요.

 

 

SPSS에서 회귀분석으로 가서 여러분이 통상 위계적 회귀분석이라고 잘못알고 있는 방식대로 하면 됩니다. 블록1에서는 X1과 X3을 선택하고 2단계에서는 X2와 X5을 선택하면 됩니다.

 

이때 statistics 메뉴에서 R^2 변화를 선택하면 됩니다. 그럼 결과물에 2단계, 즉 X2와 X5를 추가함에 따른 R^2의 중가(즉 설명력, 적합도의 중가), dR^2 값을 보여 주고 이 dR^2가 유의적인 증가인지 아닌지를 검증하는 F 검증, 즉, dF값을 보여주고 p 값이 보여 줍니다.

 

 

여기서 dF^2가 유의하면 이 경우 복잡한 모형 M2를 선택하고 유의하지 않으면 간단한 모형 M1을 선택하면 됩니다.

 

 

그러나 실제로는 이렇게 간단하지는 않습니다.

 

이 모형 선택의 문제를 우리가 흔히 하는 가설 검증의 문제로 돌아가면 dF 검증은 실제 다음의 가설을 검증한 것입니다.

 

 

귀무가설 H0: b3=0이고 또 b4=0이다

대립가설 H1: b3나 b4나 최소한 하나는 0이 아니다

 

이 가설을 검증한 것입니다.

 

그래서 dF가 유의적으로 나왔어도 실제로는 절약의 법칙에 따라 다음의 간단한 모형 M3나 M4가 더 나은 모형일 수 있습니다.

 

M3: Y=b0+b1*X1+b2*X3+b3*X1

 

M4: Y=b0+b1*X1+b2*X3+b3*X5

 

 

즉 M1보다는 복잡하지만 M2보다는 간단한 모형이 우리의 데이터에 더 적합한 모형일 수 있습니다. 그래서 M2와 M3에 대해서, 또는 M2와 M4에 대해서 어느 모형이 나은지 똑같은 작업을 또 해야 합니다.

 

이렇게 이론적으로 올바른 방법을 하면 너무 복잡해지니까 어쩔 수 없이 전진선택이니 후진제거니 아니면 stepwise니 같은 편법적인 방법을 사용하는 것입니다.

 

 

그럼 spss에서 블록을 설정하여 단계별로 하는 분석은 전혀 쓸모가 없을까요.

 

구태여 하나 찾아본다면 인구통계 변인을 회귀분석의 독립변수로 넣을 때 성별과 같은 이진더미변수나 학력이나 나이같은 순위형 변수는 그냥 연속변수처럼 취급해서 넣으면 됩니다.

 

그러나 종교 같은 명목형 변수는 하나의 변수로 회귀분석에 넣을 수 없습니다. 이 경우 무교=(0,0), 기독교=(1.0), 불교=(0,1) 등 2개의 이진 더미 변수로 변환한 다음 독립변수에 넣어야 합니다.

 

그럼 종교가 종속변수 Y에 영향을 미친다. 또는 종교에 따라 종속변수 Y가 달라진다 이런 가설에 대한 검증은 어떻게 할까요. 이진더미 변수에서 나오는 t 검증으로는 할 수 없습니다. 이런 문제를 동시추론의 문제라고 합니다.

 

그럼 억지라도 하려면 1단계에서는 종교 변수를 제외한 모든 독립변수를 투입한 다음 2단계에서 추가로 종교를 나타내는 2개의 이진더미 변수를 넣습니다. 그런 다음 결과에서 R^2 증가에 따른 F 검증의 결과가 나옵니다. 이 값을 보고 종교가 Y에 영향을 미치는지, 또는 차이가 있는지 판단하시면 됩니다.

 

그런데 이런 미친 짓 거의 안하죠.

 

 

 

하여간 일반적인 회귀분석에서는 적합도를 나타내는 R^2을 사용하여 이론적으로 할 수 있다고 하죠. 그러나 이러한 생각은 일반회귀분석말고 그 다음으로 많이 사용되는 이진 로지스틱 회귀분석에서는 더 이상 먹혀들어 가지 않습니다.

 

이진 로지스틱 회귀분석에서에서 R^2 비슷한 이름을 가진 적합도 값을 보여주지만 이 적합도 증가가 유의하지 아니지를 판단하는 통계적인 이론이 없습니다. 일반 회귀분석에서는 F검증이 가능하지요.

 

 

또 위의 모형 M3와 M4를 비교하면

 

 

M3: Y=b0+b1*X1+b2*X3+b3*X1

 

M4: Y=b0+b1*X1+b2*X3+b3*X5

 

 

M3과 복잡한지 M4가 복잡한지 말할 수가 없습니다. 즉 2개의 모형이 내포관계가 아닙니다. 그래서 추가적인 설명력의 증가, 적합도의 증가 이런 말을 사용할 수가 없습니다.

 

 

이렇게 모형이 내포관계가 아닐 때 사용하는 값들이 대표적으로 2가지가 있습니다.

 

하나는 AIC, BIC 값을 보고 판단하는 것이고요.

 

하나는 LRT에서 사용하는 개념을 이용하여 X^2, 또는 G^2 검증을 하는 것입니다.

 

 

 

여기서 가설검증에 대해 간단히 설명을 하면요.

 

순수통계학 이론은 크게 두 분야로 나눠집니다. 하나는 모형식에 있는 모수를 추정하는 분야가 있고, 가설검증하는 분야가 있습니다.

 

가설검증의 경우 주류 중의 주류가 내세우는 이론이 있습니다. 음... UMPT(uniformly most powerful test)라고 하는 것이 공부해도 아무런 도움이 안되는 이론입니다. 간단한 모형도 이 이론에 맞는 가설을 찾아내지 못합니다.

 

그 다음 주류 중의 약간 비주류가 내세우는 Fisher 계통의 LRT(Likelyhood ratio test)라는 것이 있습니다. 우리말로 어떻게 번역되어 있는지는 모르겠습니다. 이건 어느 정도 간단한 모형에서는 성립합니다.

 

그래서 가설 검증에서는 이론적으로 안되는 것이 너무 많아서 대부분 신뢰구간 이론을 차용해서 씁니다.

 

즉 통계학에서 데이터가 어느 정도 커지면 중심극한정리에 의해 정규분포로 간다는 이론이 있습니다. 즉 정규분포를 가정해서 신뢰수준 95%, 또는 신뢰수준 99%에서 신뢰구간을 구해 가설검증에 이용하는 것입니다. 가설검증할 때 아마 이건 논문에서 많이 봤을 겁니다.

 

 

여기서 이용하는 것은 LRT입니다. 통상 가설검증의 경우

 

귀무가설 H0에 해당하는 모형이 간단한 모형이고, 즉 어떤 계수가 0이다. 어떤 변수가 영향력이 없다,

 

대립가설 H1에 해당하는 모형이 더 복잡한 모형. 즉, 어떤 계수가 0이 아니다. 어떤 변수가 영향력이 있다.

 

이때 대립가설 모형의 특수한 경우를 귀무가설 모형으로 생각하시면 됩니다.

 

 

 

그럼 내포 모형이 아닌 두 모형 M3과 M4의 경우 어떻게 모형을 선택할가요.

 

이 경우 가장 복잡한 모형, 포화모형 M*(saturated model)을 생각합니다. 이 포화모형은 적합도가 완전히 1인 완벽한 모형으로 생각하시면 됩니다. 회귀분석의 경우 데이터 수가 100이면 독립변수를 99개 넣으면 완벽한 모형, 즉 적합도인 R^2이 1인 모형을 만들어 낼 수 있습니다.

 

그래서 M3과 M*도 간단-복잡관계가 있는 내포모형, M4와 M*도 간단-복잡관계가 있는 내포모형이 됩니다.

 

여기서 X^2 검증이 나옵니다. 이게 구조방정식에서 자주 나오는 X^2값입니다.

 

다음은 구조방정식에서 구체적으로 X^2 나오는 부분을 살펴보겠습니다. 그 글은 구조방정식 파트에 올리겠습니다.

 

 

 

더 관심이 있는 분은 Agrestithe introduction to categorical data analysis를 참조하시고 양이 방대하기 때문에 축소판이 있습니다. 또 이 축소판 한글로 번역된 책이 있으니까 참조하시기 바랍니다. Agresti 책은 pdf로 인터넷에서 검색이 되니까 다운로드 하시면 됩니다.

 

'연구모형만들기 > 연구모형만들기' 카테고리의 다른 글

모형선택1  (0) 2022.08.05
모형선택(model selection)과 가설검증  (0) 2022.08.01
연구모형의 종류입니다.  (0) 2012.03.22