이진 로지스틱 회귀분석

이진 로지스틱 회귀분석1

학위논문통계 2024. 7. 24. 05:17

 

 

일반적으로 회귀분석이라 하면 종속변수가 연속형 변수, 특히 정규분포를 하는 연속형 변수일 경우를 이야기 합니다.

 

만약 종속변수가 정규분포가 아닌 포아송 분포, 지수분포, 이항분포 경우 특별히 이름을 줘서 일반화 선형모형(generalized

linear model)이라 합니다.

 

그러나 이항분포의 경우 워낙 응용되는 분야가 많아 SPSS에서회귀분석==> 이분형 로지스틱이라는 메뉴로 따로 떨어져 나와 있습니다.

 

회사나 개인이 파산했는가 아닌가?, 죽었는가 살았는가?, 병에 걸렸는가 아닌가? 이걸 결정하는 요인들이 무엇인가?

 

이 물음에 대한 답을 해 줄 수 있는 분석이 바로 이분형 로지스틱 분석 방법입니다.

 

통상 사건이 터진 경우를 1로 코딩하고 사건이 아직 터지지 않는 경우는 0으로 코딩하는데 당연히 Pr(Y=1)=사건이 터질 확률이 상당히 낮게 나옵니다. 그러나 너무 낮게 나오면 이론적으로 좀 문제가 발생한다고 합니다.

 

 

그럼 이항 로지스틱 회귀분석에서 종속변수는 해결되었고, 그럼 독립변수만 이야기하면 됩니다.

 

그 중 독립변수가 명목형 변수일때가 문제가 골치 아파집니다.

 

명목형 변수인 경우 이진더미변수로 변수 변환을 한 후 독립변수에 투입해야 하는데 SPSS에서는 일반화 선형모형(general linear model)이나 이항 로지스틱 회귀분석에서는 자기들이 알아서 이진더미변수로 변환해 줍니다. 공변량에 독립변수를 다 투입한 다음 그 다음으로 어떤 변수가 범주형 변수임을 알려줘야 합니다. 그리고 이 범주형 변수의 준거범주가 어떤 범주인지 SPSS에게 알려줘야 합니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

여기서는 신용불량 여부에 영향을 미치는 독립변수로 연속형은 연령, 범주형은 학력을 잡았습니다. 그 다음 범주형(G)을 클릭하면

 

 

 

 

 

 

 

 

 

학력이 범주형 독립변수임을 알려주고 참조범주를 처음 범주로 사용하겠다고 알려줍니다.

 

SPSS에서 defalut로 참조범주를 마지막(L)로 되어 있는데 별로 안 좋은 선택이어서 처음(E)으로 바꾸는 것이 좋습니다.

 

 

참조범주가 무엇인가? “범주형 자료를 이진더미 변수로 변환하는 방법의 글을 참조하시기 바랍니다.

 

학력을 고졸이하=1, 대졸이하=2, 대학원 이상=3 이렇게 코딩되어 있다면

 

고졸이하==>(0,0), 대졸이하==>(1,0), 대학원 이상==>(0,1) 이렇게 이진더미 변수로 변환을 하는데 (0,0)으로 변환한 범주를 참조범주라 합니다.

 

그럼 이렇게 한 경우 뭐가 어떻게 달라지는가 하는 의문이 생길 수 있습니다.

 

한번 데이터를 돌려 봤습니다.

 

결과를 보면

 

 

 

 

 

 

 

 

 

 

교육수준의 범주는 0에서 4까지 5가지 범주가 있고, 이진 로지스틱 회귀분석을 돌릴 때 SPSS 내부적으로 교육0=중졸=(0,0,0,0)으로 코딩되어 있고, 이게 교육0=중졸이하가 준거범주로 지정되어 있다는 것을 알려줍니다. 그리고 결과물에는 회귀계수 값이 안 나옵니다.

 

그럼 교육1=고졸=(1,0,0,0) 이렇게 코딩되어 있고, 회귀계수 -0.876이 의미하는 것은 중졸이하에서 고졸이하로 학력이 올라가면 신용불량이 될 가능성이 낮아진다는 이야기입니다. 그리고 p값이 0.005이므로 그 가능성이 매우 유의적이라는 이야기입니다.

 

그러나 교육2부터 해석을 잘 해야 합니다. 교육2=(전문대 졸)=(0,1,0,0)으로 코딩되어 있고, 회귀계수 -0.555는 교육1과 비교해서 그렇다는 것이 아니라 준거범주 교육0과 비교해서 그렇다는 것입니다. 즉 종졸이하에서 전문대 졸업으로 학력이 올라가면 신용불량 가능성이 -0.555정도로 낮아진다는 이야기입니다. 정확한 해석은 마지막 칸에 있는 오즈비(expB)로 해석해야 합니다. 마찬가지로 교육3=(대졸) 역시 준거범주인 교육0과 비교해서 나온 결과입니다.

 

그리고 가장 윗줄에 있는 연령에서 -0.059, p=0.000 이므로 나이가 많을수록 신용불량 확률이 유의적으로 낮아진다는 의미입니다.

 

 

이 부분은 잘 이해를 해야 합니다. 다중 로지스틱 회귀분석에서도 똑같이 적용이 됩니다. 그러나 다중 로지스틱 회귀분석에서는 독립변수의 준거범주는 마지막 범주로 default로 되어 있고 이걸 바꿀 수가 없습니다.

 

다음은 오즈비(odds ratio)=exp(B)에 대해 알아보겠습니다.