고급통계모형/로직스틱(확률선택,로직선택,범주선

로직스틱 모형 소개

학위논문통계 2014. 8. 5. 13:53

 

 

1. 로직스틱 모형 소개

 

오늘은 로직스틱 회귀분석, 즉 이항 로직스틱 회귀분석과 다항 로직스틱 회귀분석, 그리고 로직 선택모형 혹은 이산 선택(discrete choice) 모형에 관해서 간단히 이야기 해보겠습니다. 이것 외에도 순위형 로직스틱 회귀분석이 있는데 이건 거의 사용을 하지 않아서 언급을 안하겠습니다.

 

흔히 우리나라 논문 보면 확률선택 모형을 했다고 하는 논문들이 많습니다. 불행하겠도 확률선택모형이라는 용어가 통계학에서 나오지 않습니다. 그래서 이게 다항 로직스틱 회귀분석을 한 것인지 아니면 로직 선택 모형을 한 것인지 알 수가 없습니다. 논문을 몇 개 읽어보면 다항 로직스틱 모형을 한 것 같습니다.

 

왜 이게 문제가 되냐고 하면요. 로직 선택 모형은 SPSS에서 아직 분석을 제공하지 않습니다. 현재 SPSS에서 분석 가능한 것은 이항 로직스틱, 다항 로직스틱, 그리고 순위형 로직스틱입니다. SAS에서는 로직 선택이 가능한 걸로 알지만 간단하게는 할 수는 없는 것으로 압니다. 혹시 관심있는 분들은 구글에서 한번 검색해보세요. SAS의 연구원이 쓴 다변량 기법에 관한 글이 돌아다닙니다. 거기서 로직선택 모형을 한번 읽어 보시기 바랍니다.

 

다항 로직스틱과 로직 선택(이산 선택)은 본질적으로 많이 다른 면이 있습니다. 다항 로직스틱과 달리 “로직 선택”에서 선택이라는 말이 들어간 것에 미루어 볼 수 있듯이 로직 선택 모형에서는 여러 가지 선택 대안에서 소비자, 아니면 연구대상자의 주체적인, 능동적인 “선택”이 강조되는 모형입니다.

 

이런 로직 선택의 예로서 뭐가 있을까요? 가장 대표적인 것이 교통 선택입니다. 걸어서 갈지, 버스를 탈지, 전철을 탈지, 아니면 자가 운전을 할 지 여러 가지 선택 대안에서 우리는 하나를 선택하는데 여기에 우리의 주체적, 능동적으로 선택한다는 것이죠.

 

또 다른 예는 동네가게를 선택할 지, 아니면 편의점을 이용할 지, 아니면 대형 할인점을 이용할지, 백화점을 이용할 지 이런 문제가 있을 수 있고요. 또는 강남에서 백화점을 이용하는데 어떤 백화점을 이용할 지 이런 문제도 있고요.

 

또는 신라면을 선택할지, 진라면을 선택할지, 아니면 참깨라면을 선택할 지 이란 일상생활에서 항상 이런 선택의 문제에 부딪친다는 것이죠.

 

그럼 여기서 이 선택의 문제에서 선택을 좌우하는 독립변수의 성격을 좀 구별할 필요가 있습니다. 이게 본질적으로 다항 로직스틱을 할 것인지, 로직선택을 할 것인지 구별시켜 주는 요인이거든요.

 

크게 보면 이 독립변수에는 두 가지 유형이 있습니다. 하나는 소비자 등 연구대상자가 가지고 있는 고유한 변수, 즉 선택자의 특성 변수가 있고요. 여기에는 당연히 성별, 연령, 이런 것들이 들어가겠죠. 이런 변수를 선택자 특성 변수(characteristics of the chooser)라 합니다.

 

또 하나는 우리가 선택해야 하는 대체안이 가지고 있는 고유의 변수가 있겠습니다. 교통이용의 문제에서는 비용, 시간, 접근성, 안락함 이런 변수들이 있겠죠. 이런 변수는 선택자가 가지고 있는 고유 변수들이 아니죠. 비용의 경우 걸어가는 것은 비용이 0이고 이에 반해 자가 운전은 비용이 많이 들겠죠. 이런 변수들을 선택안 특성 변수(characteristics of the choice)라고 합니다.

 

그래서 우리가 상식적으로 생각할 때 로직 선택모형에서는 선택안 특성 변수가 중요하겠죠. 그리고 다항 로직스틱 모형에서는 독립변수에 선택 특성변수가 나오지 않고 오로지 선택자 특성 변수만 독립변수에 나옵니다. 이게 로직 선택과 다항 로직스틱 모형의 본질적인 차이입니다.

 

그래서 다음에 이 문제에 관해서 천천히 이야기해보지요.

 

2. 이항 로지스틱 회귀분석

 

이건 다음에 쓰죠.