전체 글 310

트리모형1

2. 트리 모형(Decision Tree)​​종속변수, 반응변수, 즉 우리가 관심있는 변수가 연속형인 경우 Regression Tree라고 하고, 범주형일 경우 Classification Tree라고 구별하기도 합니다. ​​의사결정트리의 예입니다. 차의 중량과 마일리지 관계를 의사결정트리로 분석한 것입니다.​​​​​또 다시 흡연여부와 폐암여부로 돌아가 보죠.​다음 세 가지 상상의 경우가 있다고 생각해보죠. 안에 값은 비율, 즉 확률이고 앞에 이야기한 두 번째 비율입니다.​1)구분비폐암폐암비흡연0.50.5흡연0.50.52)구분비폐암폐암비흡연0.50.5흡연0.10.93)구분비폐암폐암비흡연0.90.1흡연0.10.9만약 여러분이 의사라고 하면 위의 세가지 경우 중 어느 쪽을 가장 좋아하겠습니까?​당연히 세 번째..

이진 로지스틱 회귀분석2

0. 전에 이 블로그를 할 때 가능하면 통계 이론을 쉽게 설명하려고 노력을 했습니다. 그러다 보니까 이 블로그에 오시는 분들의 통계 수준을 넘어서는 이야기가 많아서 현실적으로 도움이 안되는 복잡한 이야기가 많아졌습니다.  그래서 이번에 이 블로그의 내용을, 스타일을 완전히 수정하도록 하였습니다. 그래서 전에 쓴 이진 로지스틱의 내용도 전부 삭제 하고 지금 간단히 다시 쓰고 있습니다.   1. 이진 로지스틱의 문제점은 무엇인가? 일반회귀분석에서는 회귀계수가 바로 해석이 됩니다. 직선의 기울기이고 독립변수 X가 1단위 상승할 때 종속변수 Y가 회귀계수만큼 상승하거나 하락한다는 의미입니다. 그럼 이진 로지스틱에서 나온 회귀계수는 무얼 의미하는 것일까요? 이진 로지스틱에서는 오즈비(odds ratio)라고 ex..

다항 로지스틱 회귀분석1

이진 로지스틱 회귀분석(binomial logistic regression)의 경우 종속변수가 이진 변수인 경우입니다.  그러나 종종 종속변수가 다항분포일 경우가 있습니다. 예를 들어 외국인에게 한류 문화 중에서 가장 좋아하는 것을 하나만 골라라 물으면 음악, 드라마, 영화, 음식 등 다양한 항목 중에서 하나만 골라야 합니다. 이 경우 그 항목의 선택하게 된 결정요인을 찾아라 하면 이 경우 다항 로지스틱 회귀분석을 사용하여야 합니다. 당연히 독립변수은 이항 로지스틱과 마찬가지로 다양한 형태의 변수가 들어올 수 있습니다. 명목형 변수, 순위형 변수, 연속형 변수등이 들어올 수 있습니다. 이항 로지스틱과 마찬가지로 독립변수가 명목형 변수인 경우 해석을 잘 해야 합니다. 이항 로지스틱 회귀분석을 다시 꼭 읽어..

범주형자료를 이진더미변수로

범주형 자료를 이진더미변수로 변환하는 경우는 조절효과를 보려는 경우입니다. 물론 덤으로 주효과도 볼 수 있습니다. 에를 들어 성별의 경우 범주는 남자,여자 2 종류입니다. 그러나 성별이라는 변수는 하나뿐이죠. 마찬가지로 연령대에서 20대가 1, 30대가 2, 40대가 3, 50대가 4, 60대 이상이 5로 코딩되어 있다면 먼저 자신이 분류학 싶은 집단부터 먼저 생각하셔야 합니다. 관심 있는 집단 분류는 20대와 30대를 젊은 층으로 1, 40, 50대를 중장년층으로 2, 60대 이상을 고령층을 3으로 코딩하여 분류하여 분석하고 싶다는 것이죠. 그럼 연령대의 새 범주가 3개가 되죠. 범주가 3개이니까 이진더미변수는 2개만 있으면 됩니다. 청년층(1=) 중장년층(2=) 고령층(3=) 이렇게 이진더미변수로 데..

이진 로지스틱 회귀분석1

일반적으로 회귀분석이라 하면 종속변수가 연속형 변수, 특히 정규분포를 하는 연속형 변수일 경우를 이야기 합니다. 만약 종속변수가 정규분포가 아닌 포아송 분포, 지수분포, 이항분포 경우 특별히 이름을 줘서 일반화 선형모형(generalized linear model)이라 합니다. 그러나 이항분포의 경우 워낙 응용되는 분야가 많아 SPSS에서회귀분석==> 이분형 로지스틱이라는 메뉴로 따로 떨어져 나와 있습니다.  회사나 개인이 파산했는가 아닌가?, 죽었는가 살았는가?, 병에 걸렸는가 아닌가? 이걸 결정하는 요인들이 무엇인가?  이 물음에 대한 답을 해 줄 수 있는 분석이 바로 이분형 로지스틱 분석 방법입니다.  통상 사건이 터진 경우를 1로 코딩하고 사건이 아직 터지지 않는 경우는 0으로 코딩하는데 당연히 ..

다시한번 범주형 자료를 이진더미변수로

범주형 자료를 이진더미변수로 변환하는 경우는 조절효과를 보려는 경우입니다. 물론 덤으로 주효과도 볼 수 있습니다. 에를 들어 성별의 경우 범주는 남자,여자 2 종류입니다. 그러나 성별이라는 변수는 하나뿐이죠. 마찬가지로 연령대에서 20대가 1, 30대가 2, 40대가 3, 50대가 4, 60대 이상이 5로 코딩되어 있다면 먼저 자신이 분류학 싶은 집단부터 먼저 생각하셔야 합니다.  관심 있는 집단 분류는 20대와 30대를 젊은 층으로 1, 40, 50대를 중장년층으로 2, 60대 이상을 고령층을 3으로 코딩하여 분류하여 분석하고 싶다는 것이죠. 그럼 연령대의 새 범주가 3개가 되죠. 범주가 3개이니까 이진더미변수는 2개만 있으면 됩니다.  청년층(1=)중장년층(2=)고령층(3=)이렇게 이진더미변수로 데이..

기술통계

이 기술통계는 4장 실증분석 맨 처음에 하는 작업입니다. ​이 자체가 연구 목적이나 연구 가설을 검증하는 것은 아닙니다. 그러나 이 기술통계 결과를 통하여 이전의 데이타 변환 작업이 제대로 되었는지, 또는 변수 치환을 해야 하는지을 점검해 볼 수 있습니다.​통상 SPSS에서 최소값, 최대값, 평균, 표준편차를 구해주고 옵션에 왜도와 첨도를 체크하면 왜도와 첨도까지 구해줍니다. 평균과 표준편차를 구해주니까 여기서는 연속형 변수만 취급합니다. 즉 연구모형에 있는 변수를 넣으면 됩니다. 범주형 자료는 여기서 분석하는 것이 아니라 Frequencies나 Crosstabs를 이용해야 합니다.​SPSS ==> Analyze ==> Descripitive Ststistics ==> Descripitives​ 한 다음..

상관관계

개념 두 변수간의 선형적 관계 정도를 측정하는 것입니다. 따라서 두 변수의 상관관계가 낮다고 해서 꼭 두 변수간의 관계가 낮은 것은 아닙니다. 두 변수 X, Y의 경우 선형관계: Y=b0+b1*X이차관계: Y=b0+b1*X+b2*X2​일차 선형관계에서는 두 변수간의 관계가 약할 수 있지만 이차함수 관계에서는 두 변수간의 관계가 강할 수 있습니다. 이 상관관계 분석도 기술통계 분석과 마찬가지로 논문의 핵심부분이 아닙니다. 그래서 저널논문과 같이 지면이 좁은 경우 상관관계 분석과 기술통계 분석을 기초분석이라고 해서 하나의 표로 축약하는 경우가 많습니다.  2. 변수 상관관계 분석에 들어가는 변수의 유형은 연속형, 또는 범주형의 경우 나이, 학력과 같은 순위형 변수가 들어갈 수 있습니다. 그러나 지역, 종교 ..

확인적 요인분석3

전에 이 글을 올렸는데 사라져 버린 것 같네요. 다시 올립니다.   1. 신뢰도와 타당도에 관해 우리나라 책을 몇 권 보면 Hair 책을 번역한 수준인 것 같습니다. 네 사람이 지은 책이죠. 책의 예제를 보면 이 사람들도 전부 경영학 교수인 것 같고요. 하여간 이 책은 수리적으로 명쾌하게 이야기 하지 않아서 읽기 매우 불편합니다. 그래도 그 책에 참고문헌이나 책 등이 있습니다. 그러면 거기에 나오는 참고문헌이나 논문은 읽고 책을 써야죠. 자기가 쓰고 자기가 이해도 못하면 이걸 어떻게 책으로 냅니까. 나중에 Hair 책과 Lattin 책에 나오는 내용으로 조금 정리해 보겠습니다. 저도 엄청 헷갈립니다. 그래서 설문도구 개발 논문 의뢰가 들어오면 학과에서 비슷한 내용으로 통과한 선행논문을 보내달라고 합니다...

확인적 요인분석0

오늘은 확인적 요인분석에 대해서 써 보죠. 일단 구조방정식 그림 그리는 방법을 자세히 설명한 기초적인 책은 한 권 구입하시는 것이 좋습니다. 1. 자신의 연구모형이 매개변수가 들어가는 구조방정식 모형이 아니면 확인적 요인분석을 할 필요가 없습니다. 이 이야기는 구태여 확인적 요인분석이 꼭 필요한 절차는 아니라는 것입니다. 확인적 요인분석이 꼭 필요한 절차라면 구조방정식 모형이 유행하기 전에 나온 거의 모든 논문은 틀렸다는 이야기기 밖에 안됩니다. 확인적 요인분석을 측정모형이라고도 합니다. 이에 반해 실제 구조방정식의 인과관계를 검증하는 모형을 인과모형이라고 하고요.   2. 탐색적 요인분석과 확인적 요인분석 비교. 탐색적 요인분석을 구조방정식 모형의 확인적 요인분석처럼 그림을 그려서 두 가지 방법을 비교..