이진 로지스틱 회귀분석/다항 로지스틱 회귀분석

다항 로지스틱3: 명목형 변수를 순위형 변수로

학위논문통계 2024. 7. 31. 01:50

명목형 변수를 순위형 변수로 바꿀 수 있는 경우

 

이 과정은 통계 분석을 위해 어쩔 수 없이 하는 작업이지 이론적으로 옳다는 이야기가 아닙니다.

 

그리고 애초에 완벽한 순위형이면 처음부터 순위형 변수로 선언하고 분석에서 공변량 메뉴에 투입하면 되지 구태여 순]위형 변수로 변환하는 과정을 걸치 필요가 없습니다.

 

즉 순위형 변수로 변환하는 과정에서 이론적으로 약간의 무리한 점이 있을 수 있습니다.

 

또한 차별이나 혐오의 과정으로 읽힐 수 있기 때문에 읽는 이의 주의가 필요합니다.

 

1) 도시화나 수도권화

 

서울에 가까운 지역일수록 높은 값으로 코딩한다. 경상도나 전라도는 서울권과 가장 먼 지역이므로 가장 낮은 값으로 코딩을 한다.

 

이와 동시에 범주 중 도시와의 관계가 있으면 높은 값으로 코딩하고 농어촌 지역과 관계가 있으면 낮은 값으로 코딩한다.

 

직업도 관리적, 영업직이면 도시 관련 직업, 그 다음 공장 노무직, 농어촌 직업 순으로 나눌 수 있다. 현대인이 선호하는 직업 이미지의 순일 수 있다.

 

 

 

2) 소득 관련

 

지난 글에서 언급했듯이 흑인의 소득의 가장 낮다면 흑인=1, 황인종=2, 백인=3 이런 식으로 코딩할 수 있다. 이런 경우 인종 차별의 논란이 생길 수 있다.

 

국가도 여기에 해당할 수 있다. 최근 한국 다문화사회 역사에 동유럽 국가가 등장하였음에도 불구하고 동남아 국가의 소득이 가장 낮다는 것은 부인하기 힘들다.

 

그래서 동남아 국가를 전부 같은 국가 코드로 처리하고 가장 못사는 나라로 취급할 수 있다. 그러나 한국, 일본, 중국 등 동북아 아시아권 3국을 같은 지역의 국가로 취급하는 경우 백인 사회에서 볼 때 타당한 면이 있지만 해당 국가 사람은 같은 지역의 사람으로 인정하기 힘들다.