이진 로지스틱 회귀분석 7

다항 로지스틱3: 명목형 변수를 순위형 변수로

명목형 변수를 순위형 변수로 바꿀 수 있는 경우  이 과정은 통계 분석을 위해 어쩔 수 없이 하는 작업이지 이론적으로 옳다는 이야기가 아닙니다.  그리고 애초에 완벽한 순위형이면 처음부터 순위형 변수로 선언하고 분석에서 공변량 메뉴에 투입하면 되지 구태여 순]위형 변수로 변환하는 과정을 걸치 필요가 없습니다. 즉 순위형 변수로 변환하는 과정에서 이론적으로 약간의 무리한 점이 있을 수 있습니다. 또한 차별이나 혐오의 과정으로 읽힐 수 있기 때문에 읽는 이의 주의가 필요합니다. 1) 도시화나 수도권화 서울에 가까운 지역일수록 높은 값으로 코딩한다. 경상도나 전라도는 서울권과 가장 먼 지역이므로 가장 낮은 값으로 코딩을 한다. 이와 동시에 범주 중 도시와의 관계가 있으면 높은 값으로 코딩하고 농어촌 지역과 관..

박사급, 저널용 논문으로 적합한 다항 로지스틱 회귀분석2

다중 로지스틱을 돌리면 처음에 다음과 같은 메뉴가 뜹니다.  맨 위가 종속변수인 3개 이상의 범주를 가진 변수가 띄고 여기서 참조범주를 지정해야 합니다. 그 다음에 ‘요인’이라는 메뉴가 범주형 독립변수, 즉 명목형 독립변수가 들어가고 그 아래 ‘공변량’에는 연속형 독립변수가 들어갑니다. 그래서 명목형 독립변수를 지정하고 돌리면 다음과 같은 끔찍한 결과물을 얻게 됩니다.   왼쪽을 보면 SPSS에서 에러 메시지를 보여 줍니다. 비정칙성행렬(singular matrix)이 생겼다고요. singular 행렬이 생겼다는 이야기는 우리가 방정식을 못 풀게 되었다는 이야기랑 같은 이야기입니다. 그래서 이 경우 할 수 있는 방법은 1) 명목형 독립변수를 최소한 순위형 변수로 만들어 ‘공변량’에 집어넣어라 예를 들어 ..

박사급, 저널용 논문 주제로 매우 적절한 다중 로지스틱 회귀분석1

다항 로지스틱 회귀분석은 앞으로 박사논문이나 저널논문용으로 매우 유망한, 그래서 자주 쓰일 가능성이 높은 통계 방법론이라 할 수 있습니다. 그 이유로  1) 이항 로지스틱 회귀분석은 전부터 학술논문에 자주 사용되었으나 다항은 이론적으로 이해하기가 좀 어려워 아는 사람이 드믑니다.  2) SPSS 결과물 해석이 쉽지 않습니다.  3) 종속변수인 명목형 변수가 종종 발견되는 경우도 있고, 잘 설계하면 매우 뛰어난 종속변수를 만날 수 있습니다.   3) 문제 여기서 제일 마지막 3번이 제일 중요하기 때문에 이것부터 이야기를 해 보겠습니다. 이항 로지스틱은 2개의 경우에서 하나를 선택하거나 선택당해야 하는 상황인데 다항 로지스틱은 3개 이상의 선택지가 있어야 합니다.  그러나 현실적으로 선택지가 너무 많으면 다..

이진 로지스틱 회귀분석2

0. 전에 이 블로그를 할 때 가능하면 통계 이론을 쉽게 설명하려고 노력을 했습니다. 그러다 보니까 이 블로그에 오시는 분들의 통계 수준을 넘어서는 이야기가 많아서 현실적으로 도움이 안되는 복잡한 이야기가 많아졌습니다.  그래서 이번에 이 블로그의 내용을, 스타일을 완전히 수정하도록 하였습니다. 그래서 전에 쓴 이진 로지스틱의 내용도 전부 삭제 하고 지금 간단히 다시 쓰고 있습니다.   1. 이진 로지스틱의 문제점은 무엇인가? 일반회귀분석에서는 회귀계수가 바로 해석이 됩니다. 직선의 기울기이고 독립변수 X가 1단위 상승할 때 종속변수 Y가 회귀계수만큼 상승하거나 하락한다는 의미입니다. 그럼 이진 로지스틱에서 나온 회귀계수는 무얼 의미하는 것일까요? 이진 로지스틱에서는 오즈비(odds ratio)라고 ex..

다항 로지스틱 회귀분석1

이진 로지스틱 회귀분석(binomial logistic regression)의 경우 종속변수가 이진 변수인 경우입니다.  그러나 종종 종속변수가 다항분포일 경우가 있습니다. 예를 들어 외국인에게 한류 문화 중에서 가장 좋아하는 것을 하나만 골라라 물으면 음악, 드라마, 영화, 음식 등 다양한 항목 중에서 하나만 골라야 합니다. 이 경우 그 항목의 선택하게 된 결정요인을 찾아라 하면 이 경우 다항 로지스틱 회귀분석을 사용하여야 합니다. 당연히 독립변수은 이항 로지스틱과 마찬가지로 다양한 형태의 변수가 들어올 수 있습니다. 명목형 변수, 순위형 변수, 연속형 변수등이 들어올 수 있습니다. 이항 로지스틱과 마찬가지로 독립변수가 명목형 변수인 경우 해석을 잘 해야 합니다. 이항 로지스틱 회귀분석을 다시 꼭 읽어..

범주형자료를 이진더미변수로

범주형 자료를 이진더미변수로 변환하는 경우는 조절효과를 보려는 경우입니다. 물론 덤으로 주효과도 볼 수 있습니다. 에를 들어 성별의 경우 범주는 남자,여자 2 종류입니다. 그러나 성별이라는 변수는 하나뿐이죠. 마찬가지로 연령대에서 20대가 1, 30대가 2, 40대가 3, 50대가 4, 60대 이상이 5로 코딩되어 있다면 먼저 자신이 분류학 싶은 집단부터 먼저 생각하셔야 합니다. 관심 있는 집단 분류는 20대와 30대를 젊은 층으로 1, 40, 50대를 중장년층으로 2, 60대 이상을 고령층을 3으로 코딩하여 분류하여 분석하고 싶다는 것이죠. 그럼 연령대의 새 범주가 3개가 되죠. 범주가 3개이니까 이진더미변수는 2개만 있으면 됩니다. 청년층(1=) 중장년층(2=) 고령층(3=) 이렇게 이진더미변수로 데..

이진 로지스틱 회귀분석1

일반적으로 회귀분석이라 하면 종속변수가 연속형 변수, 특히 정규분포를 하는 연속형 변수일 경우를 이야기 합니다. 만약 종속변수가 정규분포가 아닌 포아송 분포, 지수분포, 이항분포 경우 특별히 이름을 줘서 일반화 선형모형(generalized linear model)이라 합니다. 그러나 이항분포의 경우 워낙 응용되는 분야가 많아 SPSS에서회귀분석==> 이분형 로지스틱이라는 메뉴로 따로 떨어져 나와 있습니다.  회사나 개인이 파산했는가 아닌가?, 죽었는가 살았는가?, 병에 걸렸는가 아닌가? 이걸 결정하는 요인들이 무엇인가?  이 물음에 대한 답을 해 줄 수 있는 분석이 바로 이분형 로지스틱 분석 방법입니다.  통상 사건이 터진 경우를 1로 코딩하고 사건이 아직 터지지 않는 경우는 0으로 코딩하는데 당연히 ..