연구모형만들기/연구모형만들기

모형선택(model selection)과 가설검증

학위논문통계 2022. 8. 1. 09:24

 

오늘은 모형선택(model selection)과 가설검증에 관해서 이야기를 해 볼까 합니다.

 

어떤 분이 비밀 댓글로 조절효과에 관해서 물어 봤고, 거기에 대해 제가 답변을 했는데 아마 여러분은 비밀 댓글의 내용을 잘 몰라서 제 답변이 무슨 이야기를 하는지 잘 모르실 것 같아서 글을 씁니다.

 

그리고 한번은 이 모형선택과 가설검증과의 관계에 대해서 이야기를 하기는 해야 하고요.

 

통계학에서는 가장 중요한 목적은 우리가 관찰한 데이터에 가장 적합한 모형을 선택하는 것인데 반해 응용분야 논문에서는 개별적 가설을 검증하는 것이 목적입니다.

 

이게 비슷하면서도 약간 다른 개념입니다.

 

예를 들어 독립변수 X, 매개변수 M, 종속변수 Y가 있다고 해보죠. 그럼

 

완전매개 모형 Model1은 다음의 그림과 같고,

부분매개 모형 Model2는 다음의 그림과 같습니다.

 

 

 

그럼 모형 선택의 문제는 우리가 가지고 있는 데이터에 가장 적합한 모형은 모형1인가 아니면 모형2인가 하는 문제이고요

 

이에 반해 가설검증은 X==>Y로 가는 직접효과가 있는가 없는가 하는 문제입니다. 즉 대립가설 "c는 0이 아니다"를 검증하는 것입니다.

 

즉, a, b, c 모두 유의적으로 나오면 모형2를 선택하고 a, b는 유의적으로 나왔는데 c가 유의적이지 않으면 즉 c는 0으로 판단이 되면 그럼 모형1을 선택하게 됩니다.

 

그래서 모형선택과 개별 가설 검증이 비슷한 작업을 하는 것처럼 보입니다.

 

나중에 조금 더 자세히 설명을 하겠지만 통상 이 작업을 하는 경우는

 

1) 박사논문같이 분석량이 제법 많아야 하는 경우 분석량을 늘이기 위해 수정모형, 또는 개선모형이라는 이름 하에서 진행을 합니다.

 

2) 모형1보다 모형2가 더 복잡한 모형입니다. 즉 모형1은 모형2에서 c=0일 경우로 모형2의 특수한 케이스입니다. 즉, 모형2에서 화살표 c를 0으로 생각해서 삭제하면 더 간단한 모형인 완전매개 모형인 모형1이 됩니다.

 

그래서 모형2 > 모형1 이렇게 내포관계를 이야기할 수 있습니다. 이렇게 우리가 설정한 모형들이 내포관계가 있을 경우 이 경우 내포모형(nested model)이라고 합니다.

 

즉, 내포모형은 모형이 하나가 아니고 모형들의 집합을 이야기하는데 이 내포모형안에 있는 모형들간에는 모두 단순하고 더 복잡한 모형 관계가 성립합니다.

 

3) 모형이 복잡해지면, 즉 모형의 변수가 늘어나거나, 또는 모형의 변수들간의 인과관계가 복잡해지면 영향력이 서로 분산이 됩니다. 즉, 모형이 복잡해질수록 영향력이 잘게 쪼개집니다. 이 이야기는 모형에서 가정한 인과관계가 유의적으로 나오지 않을 가능성이 높아집니다.

 

이에 반해 모형이 간단해지면 복잡한 모형에서 유의적으로 나오지 않았던 인과관계가 유의적으로 나올 수가 있습니다.

 

예를 들어 위의 부분매개 모형인 모형2에서 b가 유의적으로 나오지 않을 경우 완전매개인 모형1을 선택하여 구조방정식을 적용하면 b가 유의적으로 나올 수 있습니다.

 

 

즉, 구조방정식에서 부분매개 모형인 복잡한 모형인 모형2을 적용하면 a와 유의적으로 나오고 b와 c가 유의적으로 나오지 않았을 경우라도 인과관계 c를 제외한 완전매개 모형인 좀 더 간단한 모형1을 선택하면 b가 유의적으로 살아날 수 있습니다.

 

그럼 부분매개 모형을 적용한 결론 “a만 유의적이고 b와 c는 유의적이지 않다”라는 결론은 틀린 것이고, 완전매개 모형을 적용한 결론 “a와 b는 유의적이고 c는 유의적이지 않다”라는 결론이 맞는 말입니다.

 

여기서 모형선택과 개별가설이 전혀 다른 개념이라는 것을 알 수 있습니다.

 

 

그럼 원래 이야기로 돌아가서

 

질문한 분이 현재 조절효과 검증하는 논문을 쓰고 있는데 어디 블로그에서 2단계에서 유의적이지 않으면 분석을 거기에 그치고 3단계로 넘어가서는 안된다는 이야기를 본 모양입니다. 그래서 이 말이 맞는지 물어 본것입니다.

 

당연히 틀린 이야기이죠. 조절효과를 보려고 하면 3단계까지 해야 합니다. 거기서 상호작용항이 유의적인지 보는 것이 조절효과 검증하는 것이거든요.

 

그 블로거 이야기는 일종의 모형선택의 이야기입니다. SPSS에서 회귀분석을 하면 처음 화면에 enter 방식이 나옵니다. 여기 메뉴에 가면 전진선택법 이런 것이 있습니다. 이 블로거는 지금 이 전진선택법 이야기를 하고 있는 것입니다. 개별 가설인 조절효과 검증을 한 것이 아니고요.

 

지금 제가 하는 이야기를 정확하게 이해하실 필요가 없습니다. 이건 나중에 좀 더 자세히 설명하겠습니다.

 

예를 들어 독립변수 스트레스 X가 종속변수 이직의도 Y에 미치는 영향에 대해서 연구를 하는데 이 인과관계가 남녀간에 차이가 있는지 보려고 합니다. 그럼 이 성별이 조절변수 M이 됩니다.

 

여기서 스트레스는 좀 더 세분해서 경제적 스트레스 X1, 물리적 환경 스트레스 X2, 인과관계 스트레스 X3로 놓고, 성별은 남자=0, 여자=1로 이진더미변수로 코딩했다고 하죠.

 

그래서 대부분 논문에서는 다음과 같은 3단계 회귀분석 결과를 보여 줍니다. 사실 1단계, 2단계는 필요없는 단계인데 한국 사회과학 학계에서 잘못된 관행을 계속 이어 나가고 있습니다.

 

그 이유는 이 조절효과 보는 회귀분석을 위계적 회귀분석(Hierarchical Regression)이라고 하는데 이렇게 1단계, 2단계, 3단계 이렇게 복잡하게 단계별로 하는 것을 위계적 회귀분석이라고 착각을 하고 있어서 그렇습니다. 단계별로 하는 것이 위계적 회귀분석이 아니고 상호작용항이 있을 깨 주효과에 해당하는 변수도 꼭 들어가야 하는 모형을 위계적 회귀분석이라 합니다. 일반화된 정의는 아니지만 그 정도로만 이해를 하시면 됩니다.

 

예를 들어 Y=b0+b1X+b2X*M이나 Y=b0+b1M+b2X*M은 위계적 회귀분석이 아닙니다.

 

상호작용항 X*M에 들어있는 X와 M도 역시 독립변수에 꼭 들어가야지 위계적 회귀분석이라고 부릅니다.

 

한국의 사회과학 교수들이 위계적 회귀분석의 정확한 정의를 몰라서 이런 사태가 벌어진 것이죠.

 

저도 관행에 맞춰 분석해 드립니다. 학과 심사위원이나 저널 심사위원 교수들에게 설명해주고 싸워 봐야 좋을 게 전혀 없거든요. 설명해줘도 알아듣지도 못하고 그리고 자기들 무식이 드러나면 꼬장을 부리거든요.

 

그럼 SPSS==>Regression==>Linear 가면 종속변수 메뉴 바로 밑에 도독립변수를 지정하는 Block라는 것이 있습니다.

 

여기서 block1에서 스트레스 X1, X2, X3를 지정하고 다음 2단계에서는 조절변수인 성별 M을 지정하고 마지막 3단계에서는 조절효과를 보는 상호작용항 X1*M, X2*M, X3*M을 지정합니다. 물론 이 상호작용항은 미리 데이터에서 구해 놓아야 하겠죠. 그리고 독립변수는 기술통계 구할 때 미리 표준화를 시켜 놓는 것이 좋습니다.

 

 

그럼 결과물에서 다음과 같은 형태로 나옵니다.

 

독립변수 1단계(모형1) 2단계(모형2) 3단계(모형3)
b t b t b t
상수 3.296   3.277   2.967  
경제적 0.114*   0.104*   0.073*  
물리환경 0.085   0.091   0.097  
인간관계 0.137**   0.122**   0.098*  
성별   0.074   0.058  
경제*성별   0.027*  
환경*성별 -0.036  
인간*성별 0.031*  
모형통계량 R2=0.312,
F=13.221***
dR2=0.091,
dF=3.142*
dR2=0.121,
dF=7.142**

 

 

 

1)

 

여기서 보면 모형1, 모형2, 모형3만 생각하면 이건 내포모형입니다. 즉 모형1 < 모형2 < 모형3 이렇게 되어서 내포모형입니다.

 

조절효과 보는 것은 모형3에 있습니다. 그래서 조절효과를 검증하려면 모형3까지 해야 하고, 사실은 조절효과 검증은 모형3에만 있기 때문에 모형1과 모형2는 조절효과 검증하는데에는 아무런 필요가 없는 작업니다.

 

2)

 

2단계 모형통계량에서 dR2는 모형1에서 조절변수인 성별의 변수를 추가로 투입하였을 경우 결정계수의 증가, 즉 설명력의 중가를 이야기하는 것입니다. 즉 모형1에서 성별의 변수를 추가로 독립변수로 투입하면 설명력이 9.1% 증가한다는 것입니다. 그리고 이 설명력 증가가 유의한지는 F 검증, dF가 유의한지 아니지 보면 됩니다.

 

마지막 3단계 모형통계량에서는 조절효과인 상호작용항 3개의 변수를 추가로 투입하였을 경우 설명력의 증가 dR2=0.121, 즉 설명력이 12.1% 증가하였다는 것이고 이 설명력의 증가 역시 유의한지 아니지 보려면 dF가 유의한지 아니지 보면 됩니다.

 

질문하신 분의 이야기에 따르면 그 블로거의 주장은 2단계 조절변수인 성별을 넣었을 경우 유의하지 않았기 때문에 3단계 상호작용항이 있는, 즉, 진짜 조절효과를 검증하는 3단계로 넣어가서는 안되고 또 2단계에서 추가로 투입된 성별이 유의하지 않았기 때문에 최종적으로 선택해야 하는 모형은 모형1, 즉 스트레스만 독립변수로 들어간 모형을 가장 최적의 모형으로 선택해야 한다는 이야기입니다. 

 

3)

 

마지막 F 검증의 정확한 가설은

 

귀무가설 H0: 3개의 상호작용항의 계수는 전부 0이다. 즉 모두 유의적인 조절효과가 없다.

 

대립가설 H1: 3개의 상호작용항의 계수 중 최소한 하나는 0이 아니다. 즉, 3개의 상호작용효과, 즉 조절효과 중 최소한 하나의 조절효과는 유의적이다.

 

이렇게 됩니다. 여기서 나온 F 검증의 결과는 위의 개별적인 조절효과를 보는 것과 차이가 있을 수 있습니다. 이걸 동시 추론(simultaneous inference)의 문제라고 합니다.

 

4)

 

3단계에서 스트레스까지의 회귀계수는 남자의 경우(빨간색)입니다. 즉 조절변수인 성별 M=0인 경우입니다.

 

남성의 경우

 

이직의도=2.967+0.073*경제적 스트레스+0.097*물리환경적 스트레스+0.098*인간관계 스트레스

 

이렇게 되고

 

여성의 경우, 즉 M=1인 경우는 파란색 회귀계수를 더하면

 

이직의도=(2.967+0.058)+(0.073+0.027)*경제적 스트레스+(0.097-0.036)*물리환경적 스트레스+(0.098+0.031)*인간관계 스트레스

 

이렇게 됩니다. 이건 위 결과물에서 M=0과 1을 대입해보면 쉽게 이해가 됩니다.

 

그리고 조절효과 검증은 3단계 밑에 있는 경제*성별, 환경*성별, 인간*성별 이 항들이 유의적인지 아닌지 t 검증의 결과를 보시면 됩니다.

 

 

5)

 

그래서 결론을 이야기하면 사회과학에서 나오는 조절효과 검증은 다 필요없고 3단계 밑에 있는 상호작용항(파란색 부분)만 검증을 하면 됩니다.

 

 

다음은 이 모형선택의 문제를 회귀분석이나 이원분산분석을 통해 좀 더 이야기하고 실제로 구조방정식에서 이 모형선택을 꼭 해야 하는 부분이 있습니다. 잠재성장모형에서 나옵니다. 다음에 여기에 대해서 이야기하겠습니다.

 

 

 

 

 

 

 

 

 

 

'연구모형만들기 > 연구모형만들기' 카테고리의 다른 글

모형선택2  (0) 2022.08.07
모형선택1  (0) 2022.08.05
연구모형의 종류입니다.  (0) 2012.03.22