고급통계모형/로직스틱(확률선택,로직선택,범주선

로지스틱 회귀모형을 이용한 선거예측모형

학위논문통계 2024. 5. 2. 11:43

 

 

1. 출구조사

 

출구조사가 엉터리라고 말이 많았는데요.

 

저도 출구조사에 대한 정보가 없으니까 정확한 문제를 알 수는 없습니다.

 

그런데 출구조사 꼭 할 필요가 있나요. 요새는 인공지능에게 물어보면 다 알려준다고 하는데요.

 

방송국이나 신문사 모두 인공지능에게 한번 물어 봤을 겁니다. 그런데 나온 결과가 도저히 보도할 수준이 안되니까 입 다물고 있는 것이죠.

 

 

원래 표본 추출이 랜덤하게 잘 되면 표본 수만 어느 정도 늘리면 정확한 예측 값을 얻을 수 있습니다. 이게 잘 안 된 것이죠.

 

 

출구조사는 정확한 득표율를 예측하는 것이 목적이 아닙니다. 당선자를 예측하는 것이 목적이죠.

 

이 말은 출구조사를 안해도 그 결과를 뻔히 알 수 있는 지역구는 구태여 출구조사를 할 필요가 없다는 것이죠.

 

당연히 대부분 경상도나 전라도 지역, 그리고 여론조사에서 15% 이상 차이가 나는 지역은 구태여 출구조사를 할 필요가 없다는 것입니다.

 

 

그래서 출구조사의 인원과 돈을 경합지역, 또는 관심지역에 투입하는 것이 바람직합니다. 정확하게 당선자를 예측하려면 표준오차를 줄여야 하고 이 표본오차를 줄이려면 여러분이 생각하는 정도보다 훨씬 큰 표본 수가 필요합니다.

 

 

경합지역에서 표본 수를 충분하게 하였는데 불구하고 예측이 틀렸다면 그럼 2가지 문제밖에 없습니다. 사전투표자의 성향을 잘못파악하였다든지 아니면 흔히 이야기하는 샤이 지지자 문제인 것 같습니다.

 

막판에 국힘 지지자들이 결집하여 투표는 하였지만 출구조사에서는 쪽팔려서 국힘지지자라도 이야기 못하고 출구조사에 제대로 응하지 않았다고 봅니다.

 

 

 

 

2. 선거예측모형

 

 

지금 우리가 하고자 하는 것은 길을 가다가 어떤 사람을 만났습니다. 이 사람의 여러 가지 개인 정보를 듣고 이 사람이 민주당 지지자인지 아니면 국힘지지자 인지 파악하는 문제입니다.

 

기타 소수 정당 지지자를 다루지 않습니다. 만약 소수 정당 지지자를 파악하는 문제라면 소수정당 지지자를 1, 기타 정당 지지자를 0으로 코딩하여 해결하면 됩니다.

 

 

선거예측모형은 로지스틱 회귀분석(logistic regression analysis)을 이용해서 만들 수 있습니다.

 

 

로지스틱 회귀분석은 일반 회귀분석과 달리 종속변수가 이진더미변수인 경우 사용합니다.

 

 

1) 모형

 

선거의 경우

 

국힘지지=0, 민주당지지=1, 또는 민주당지지=0. 국힘지지=1 이렇게 이진더미변수로 코딩된 변수를 종속변수로 사용하는 경우 로지스틱 회귀분석을 사용합니다.

 

기타 정당은 결측값으로 처리하여 분석에서 제외하면 됩니다.

 

그럼 소수정당은 어떻게 할까요. 자기네 소수정당=1, 기타 정당지지=0으로 하여 분석하면 됩니다.

 

종속변수를 국힘지지=0, 민주당지지=1로 코딩한 변수라고 하면

 

 

로지스틱 회귀분석의 모형식을 한번 보죠.

 

 

복잡하죠. 왼쪽의 p(x)은 민주당을 지지할 확률이 되고, x는 민주당 지지를 설명해주는 설명 변수가 됩니다.

 

오른쪽 식을 보면 분자와 분모가 전부 양수입니다. 그리고 분모가 분자보다 1 더 큽니다.

 

그래서 p(x)는 항상 0에서 1 사이에 있게 됩니다.

 

 

 

하여간 위 식이 너무 복잡하게 보이죠.

 

 

우리가 잘 아는 일반 회귀분석의 식은

 

Y(x)=b0+b1*x1+b2*x2

 

로 간단한 1차원 식으로 되어 있습니다. 그냥 중학교에서 배운 직선의 식에 불과합니다.

 

여기서 b0는 직선의 절편, b1b2는 직선의 기울기에 해당합니다. x가 한 단위 증가할 때 Y가 얼마나 증가하나 또는 하락하나를 의미합니다.

 

 

그래서 위의 로지스틱 회귀분석 식을 일반 회귀분석 식처럼 조금 이해하기 쉬운 형태로 바꾸면

 

 

 

위 식의 오른쪽이 일반 회귀분석 식처럼 일차식 모양을 가지고 있죠.

 

p(x)/(1-p(x))를 오즈(odds)라 합니다. 즉 우리의 경우

 

p(x)/(1-p(x))=민주당 지지확률/(1-민주당 지지확률)

=민주당 지지확률/국힘지지확률

 

이렇게 되는 것이죠.

 

만약 종속변수를 국힘지지하면 1, 민주당 지지하면 0으로 코딩했다면 이때는 odds(국힘 지지확률/민주당 지지확률) 이렇게 되고요.

 

 

 

2) 회귀계수 b의 해석

 

 

그 다음 문제는 회귀계수 b를 어떻게 해석하는가입니다. 일반 회귀분석에서는 b는 직선의 기울기에 불과합니다. 독립변수 x1단위 상승할 때 y가 얼마나 증가하는가, 또는 하락하는가를 의미합니다.

 

그러나 로직스틱 회귀분석에서는 회귀계수 b의 해석이 간단하지 않습니다. b를 바로 해석하지 않고 오즈비(odds ratio)로 해석합니다. 그리고 이 오즈비는 exp(b)가 됩니다.

 

즉 독립변수 x1단위 상승할 때 기울기가 아닌 오즈(odds)

 

p(x)/(1-p(x))=(민주당 지지확률/국힘 지지확률)

 

이 얼마나 상승하나 또는 하락하나 이렇게 해석이 됩니다. 이 값이 오즈비(OR:odds ratio)입니다.

 

조금 자세히 설명하면

 

 

 

 

3) 설명변수 x

 

이 다음 가장 중요한 설명변수 x를 설정하는 것입니다.

 

(1) 행정 지역

 

모두 다 아시다 시피 민주당 지지와 국힘 지지에 가장 큰 영향을 미치는 변인은 행정 지역입니다. 경상도는 국힘 지지자가 많고 전라도는 민주당 지지자가 많습니다.

 

그럼 행정적 지역은 다음과 같이 범주형 자료로 만듭니다.

 

1. 전라도, 2. 경상도 3. 수도권 4. 기타 지역

 

지역을 너무 상세히 하면 그리 좋은 방법이 아닙니다. 지역을 상세히 하면 소위 적합도라는 것은 올라가지만 통계 결과를 그리 신뢰할 수 없습니다. 대원칙은 절약의 법칙입니다.

 

적합도가 뚜렷하게 상승하지 않으면 가능하면 모형은 간단한 모형이 좋습니다.

 

이 지역 변수를 분석할 때 실제로는 3개의 이진 더미 변수로 전환이 됩니다.

 

실제 분석에서 데이터 모양은 다음과 같습니다.

 

1. 전라도=(0,0,0)

 

2. 경상도=(1,0,0)

 

3. 수도권=(0,1,0)

 

4. 기타 지역=(0,0,1)

 

여기서 전라도를 흔히 준거범주라고 합니다. 데이터 모양을 보면

 

id 행정 지역 행정더미1 행정더미2 행정더미3

1 3 0 1 0

2 2 1 0 0

3 3 0 1 0

4 1 0 0 0

5 4 0 0 1

.





.





.





200 1 0 0 0

 

 

여기서 데이터에 있는 행정더미1, 행정더미2, 행정더미3 이 변수들은 통계 분석하는 사람이 본인이 직접 만들어야 합니다.

 

 

(2) 지역 특성

 

위의 행정 지역 말고 다른 지역 특성이 있을 수 있습니다. 예를 들어 1=대도시, 2=소도시, 3=농어촌 지역, 4=공장지역 이런 지역 특성 변수가지지 정당을 결정하는 중요한 변수가 될 수 있습니다. 당연히 대도시는 민주당 지지가 높고, 농어촌 지역은 국힘지지 가능성이 높죠.

 

이것도 행정지역과 마찬가지로 3개의 더미변수를 새로 만들어 모형을 만들어야 합니다.

 

 

 

(3) 기타 중요 설명변수

 

가장 대표적인 변수가 연령입니다. 나이가 많을수록 국힘 지지가 높습니다. 또 연령 외에도 학력이 있을 수 있습니다. 학력이 낮을수록 국힘 지지가 높습니다. 이런 현상은 우리나라뿐만 아니라 전 세계적인 현상이라고 봐도 될 겁니다.

 

전 세계적으로 학력이 낮고 나이가 많을수록 극우정당 지지도가 높아지는 경향이 있습니다.

또한 연령이 많아지고 학력이 낮아지면 당연히 소득은 떨어집니다.

 

그래서 지지정당 결정 변인으로 연령, 학력, 소득간에는 상당한 높은 상관관계가 있습니다.

 

 

최근에는 페미 문제로 인해 주로 20-30대 남성을 위주로 민주당 지지율이 많이 낮아지고 있습니다. 따라서 연령에서는 선형관계가 아닌 2차방정식 모양을 취하고 있습니다.

 

운동이라도 하는 것도 대다수 사람들이 타당하다고 인정할 수 있는 보편성을 갖춰야 합니다.

 

남녀간에 심각한 혐오감만 조장한 골통 페미들 때문에 갈수록 인구문제가 심각해지고 있습니다. 애초에 결혼을 안하겠다는 어떻게 인구문제가 해결이 됩니까.

 

그래서 행정지역, 지역의 특성, 연령, 학력, 소득 등이 민주당 지지나 아니면 국힘 지지나를 결정하는 가장 중요한 설명변수가 되겠습니다. 그 다음 성별, 직업 등도 설명변수로 넣을 수 있습니다.

 

그런데 여기서 외딴 섬 같은 존재가 하나 있죠. 바로 강남 지역입니다.

 

이런 경우를 위의 설명변수들이 설명하지 못하는 변동에 해당하는 것입니다.

 

4. 총선의 적용

 

위의 연구모형을 총선에 바로 적용할 수는 없습니다.

 

총선에는 위의 설명변수 외에 중요한 변수들이 있습니다.

 

가장 중요한 변수는 그 당시 여당의 지지도입니다. 그리고 나머지 변수는 지역 후보자들의 경쟁력이 될 수 있습니다. 이 변수들은 총선 실시기간에 주관적으로 판단해서 모형을 결정해야 합니다.