논문쓰기/통계조작,논문조작

문재인 정부의 통계 조작?

학위논문통계 2023. 10. 21. 20:51

유튜브 알고리즘울 통해 민주당의 한준호인가 하는 친구가 산술평균과 기하평균 이야기하면서 정부부처 사람을 완전히 까발리는 장면을 봤는데요.

 

국힘애들 이야기는 정부 부처인 부동산 평가원인가 하는 곳에서 발표하는 아파트 가격이 국민은행 등 민간이 내는 아파트 가격보다 보다 낮게 나온다는 이야기입니다. 그래서 이게 문재인 정부의 통계 조작이라는 것이죠.

 

그런에 한준호가 하는 민주당 친구 이야기는 애초에 통계 뽑는 방법이 다른다는 것이죠. 한쪽은 기하평균을 쓰고 한쪽은 산술평균을 썼다는 것이죠.

 

이걸 좀 본질적인 문제로 한번 생각해보죠.

 

대한민국 아파트 가격은 저 멀리 시골에 있는 1억도 안되는 아파트에서 강남의 100억에 가까운 아파트까지 수 많은 아파트 가격이 있다는 것이죠.

 

, 아파트 가격은 하나의 값이 아니고 분포를 이루고 있다는 것이죠.

 

그럼 여기서 우리는 이 분포를 잘 표시하는 하나의 값을 구하고 싶다는 것입니다. 즉 분포를 대표하는 값을 구하고 싶다는 것이죠.

 

이 분포의 대푯값으로 여러분이 잘 아는 평균, 또는 중앙값, 최빈값, 또는 기하평균, 조화평균 등 다양하게 있습니다.

 

통계학에서는 여러분이 잘 아는 평균을 사용합니다. 정확하게는 표본평균이죠.

 

이 표본평균이 계산하기도 쉽고, 중심극한 정리 등 매우 유용하고 중요한 성격을 가지고 있습니다.

 

정부기관인 부동산 평가원인가에서는 기하평균을 사용한 모양입니다. 정확하게는 잘 모르겠고요.

 

그럼 표본평균을 쓰지 않고 왜 기하평균을 썼는가? 이거 조작아닌가 이렇게 생각할 수 있습니다. 아닙니다.

 

 

아파트 가격이나 집값 같은 경제적인 변수는 하나의 특징이 있습니다. 매우 극소수가 굉장히 큰 값을 가지고 있다는 것이죠. 대부분 아파트 가격은 상대적으로 낮은 가격에 몰려 있고요.

 

이 경우 표본평균을 대푯값으로 사용하면 아파트 가격 분포의 대푯값보다 과대평가하는 경향이 있습니다. 일부 강남 아파트의 100억 가까이 되는 아파트가 이 표본평균에 심각한 영향을 미친다는 것이죠.

 

 

이것과 비슷한 예가 또 있습니다.

 

영국 프리미어 리그 선수들의 리그 기간 동안 평균 골수를 계산해 보죠. 지난번 리그의 경우 손흥민이나 사라처럼 20골 이상을 넣은 극소수의 선수들이 있는 반면 대부분 선수들은 0, 1, 2골 이 정도 밖에 못 넣습니다. 교체 멤버라든지 수비수 들은 리그 기간 동안 거의 골을 못 넣거든요.

 

골 못 넣기로 유명한 울버햄톤의 경우 최근 황희찬의 5골이 울버햄튼에서 최근 몇 년 안에서 가장 골을 많은 넣은 기록이랍니다. 최근 몇 시즌 동안 울버햄튼 선수들은 리그 기간동안 5골 이상 넣은 선수가 없다는 이야기입니다.

 

이럴 경우 표본평균을 사용하면 15골 이상 넣은 극히 일부 선수들의 골 기록이 전체 골 수 대푯값을 극히 과대 왜곡을 시킨다는 것이죠.

 

이렇게 대부분 경우와 다르게 극히 일부 값이 크게 다를 경우 이런 경우 이상치(outliers)라고 합니다. 정확하게 정의된 바는 없지만.

 

그리고 골수처럼 특징 기간이나 공간에서 일어나 횟수는 포아송 분포를 따른다고 하는데 이 포아송 분포는 0, 1, 2 이렇게 왼쪽에 짝 몰려 있는 분포를 따릅니다.

 

 

하여간 아파트 가격처럼 대부분 아파트는 왼쪽에 짝 몰려 있고, 극히 일부 강남 아파트만 극단적으로 높은 가격이 있는 경우 통계학이나 경제학에서는 이 문제를 어떻게 해결할 까요.

 

아파트 가격 분포가 정규분포처럼 좌우 완전히 대칭으로 이루어져 있으면 아무런 문제가 없습니다.

 

그래서 왼쪽에 쫙 몰려 있는 분포를 정규분포처럼 좌우 대칭 분포로 변환을 합니다. 이때 많이 쓰는 변환 함수는 log 함수입니다. log은 고등학교에서 배우는 Ln함수입니다. 대학교 수학에 가면 Ln이란 표현을 안 쓰고 log로 씁니다.

 

그래서 경제학 논문이나 경제를 다룬 논문을 보면 log 치환된 변수를 많이 볼 수 있습니다.

 

아마 주식하시는 분들은 log로 치환된 그래프를 본 적이 있을 겁니다.

 

그래서 이론적으로 하면 먼저 아파트 가격을 log 취한 다음 이 log(아파트 가격)의 표본평균을 구해야 합니다.

 

 

그런데 아파트 가격을 이렇게 발표할 수 없잖아요. 일반인들이 이해를 할 수 있습니까. 원 가격 형태로 발표를 해야죠. 그래서 기하평균이라는 것을 쓴 모양입니다.

 

 

민주당이든 국힘이든 정권을 잡아서 국정을 제대로 펴려면 일단 2가지 일을 해야 합니다. 첫째 현장에서 목소리를 듣는 것이고, 둘째는 거시적인 흐름을 알기 위해 통계를 파악하는 것입니다.

 

그래서 통계청이든, 한국은행이든 부동산 평가원이든 통계가 나오면 대통령실에서 자료를 요청하는 것은 당연한 일이고 그렇게 해야 하는 것입니다.

 

그리고 통계 자료를 봤는데 상식적이고 논리적인 생각과 일치하는 않는 통계가 나오면 이것 당연히 확인을 시켜야 합니다. 왜 이렇게 결과가 나왔는지요.

 

저 같은 단순한 설문조사 통계를 가지고 통계 처리 하는 사람도 이와 비슷한 과정을 밣습니다.

 

일단 데이터를 받으며 cleaning 작업을 해야 합니다. 대부분 논문용 설문조사는 대부분 3, 5, 7Likert 척도로 되어 있습니다.

 

5점 척도이면 데이터에 1, 2, 3, 4, 5 이 값만 들어가 있어야 하는데 바쁘게 코딩하다 보면 34, 23, 이런 값들이 들어가 있습니다. 이런 것은 일일이 결측값으로 처리해야 합니다.

 

또 데이터에 한글이나 영어 등 문자가 들어 있으면 이걸 숫자로 전환을 해 줘야 합니다.

 

이렇게 cleaning 작업을 하고 나면 또 전처리 작업을 해야 합니다.

 

예를 들어 연구 변수에 우울이 있다고 하죠. 그럼 각 사람들의 우울 정도를 정확하게 측정하기 위해서 우울과 관련된 설문문항을 여러 개 만들어 물어 봅니다.

 

여기에도 역문항 같은 것이 있을 수 있습니다. 설문문항이 반대로 물어 보는 것입니다. 우울 설문문항인데 요새 행복감을 자주 느낍니까이렇게 물어 본다는 것이죠. 이건 사람들이 기계적으로 응답하는 것을 방지하기 위해서 한다고 하는데 제가 보기에 안 하는 것이 나을 것 같습니다.

 

그럼 이런 역문항의 값은 역코딩을 해야 합니다. 1로 코딩되어 있으면 5, 24, 42, 51로 역코딩을 해야 합니다.

 

그런 다음 우울 측정 문항이 평균을 구해서 이걸 각 사람들의 우울정도로 측정합니다. 이렇게 설문문항의 평균을 구하면 앞에서 이야기한 것처럼 중심극한정리에 의해 이 값은 정규분포를 따르게 되어 있습니다.

 

이런 다음 논문에 들어가는 분석 작업을 시작한다는 것이죠.

 

그런데 앞의 이 작업에서 만약 실수 했다면 어떻게 할까요. 작업한 것을 일일이 다시 한번 체크를 할까요.

 

물론 하면 좋죠. 그러나 이렇게 엄밀하게 하면 시간과 돈이 엄청 들어갑이다.

 

 

그 대신 이걸 대신해 주는 방법이 있습니다. 바로 모든 논문에 들어가는 기술통계와 상관관계 분석을 보면 어는 정도 알 수가 있습니다.

 

기술통계에서 최소값, 최대값, 평균 값을 보면 대강 알 수 있습니다. 5점 리커트 척도이면 최소값이 1, 최대값이 5, 평균이 2.5에서 3.5 정도 사이에 나옵니다.

 

만족도 같이 긍정적인 변수이면 통상 평균이 3점보다 약간 높게 나오고, 우울과 같이 부정적인 변수이며 통상 3점 보다 약간 낮게 나옵니다. 보통이다보다 약간 높거나 낮게 나옵니다.

 

즉 대부분 사람들은 3보통이다에 응답하고 일부 1점이나 2, 또는 4, 5점에 응답한 사람들에 따라 3점 보다 약간 높게나 낮게 나옵니다.

 

또 상관관계 분석에서 우리가 생각하는 상식적인 부호가 나와야 합니다. 상식적으로 두 변수가 + 상관관계가 있어야 하는데 - 부호가 나오면 이건 앞의 작업에서 어딘가 잘못이 있다는 이야기이거든요.

 

이와 같이 기술통계나 상관관계 분석에서 이상한 결과가 나오면 앞의 작업을 다시 확인해 봐야 합니다.

 

이런 상식적인 과정을 통계조작이라고 정치적인 선동이나 하고 있고, 이걸 한국 기레기들이 그냥 받아 적고 있고.

 

 

물론 통계조작을 할 수 있습니다. 그럼 이걸 주장하려면 명확한 근거가 있어야 합니다. 위에서 숫자 자체를 조작하라든지, 아니면 표본추출방법이나 추정 방법의 변경을 아무런 근거도 없이 강요를 한다든지요.

 

표본추출 방법이나 추정방법의 변경은 매우 위험한 것입니다. 왜냐하면 통계의 일관성을 잃어버리거든요. 그래서 이전에 조사한 통계 자료는 사실상 쓸모가 없게 되어 버립니다. 아니면 매우 전문적이고 교묘한 보정작업을 해야 합니다.

 

이런 명확한 근거로 없이 그냥 정치적 선동 수단으로 지금 주장하고 있는 것이거든요.

 

그냥 얘들은 할 줄 아는 게 아무것도 없습니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

'논문쓰기 > 통계조작,논문조작' 카테고리의 다른 글

1227통계조작, 논문조작?  (0) 2019.12.27