논문쓰기/통계조작,논문조작

1227통계조작, 논문조작?

학위논문통계 2019. 12. 27. 15:59



 

논문을 쓰다 보면 결과가 안 좋게 나와 속상할 때가 많습니다. 분석하는 저도 굉장히 피곤하죠. 결과가 잘 나오면 그걸로 분석이 끝나는데 원하는 결과가 안 나오면 추후작업이 매우 피곤해지거든요.

 

 

1. 비양심적 방법

 

흔히들 하는 통계 조작은 비양심적인 방법입니다. 하나는 원데이타(raw data)를 고치는 것이고, 하나는 데이터를 나두고 표만 살짝 고치는 방법입니다.

 

통상 학교나 학회에서 분석한 데이터를 요구하지 않습니다. 또 요구한다고 해도 교수들이 자신들이 직접 그 데이터가지고 작업해서 확인하지 않습니다. 교수가 이렇게 나오는 경우는 그 학생을 떨어뜨리고 하는 의도라고 볼 수 있습니다.

 

그래서 가끔 데이터를 고쳐서 원하는 결과를 만들어 달라는 의뢰인이 많은데 이 데이터 자체를 고치는 것은 굉장히 힘든 작업입니다.

 

일단 공공에 오픈된 데이터는 고치면 안됩니다. 똑같은 데이터를 다른 사람이 똑같은 분석방법을 사용했는데 다른 결과가 나오면 사회적으로 심각한 논란이 생길 수가 있습니다.

 

설문데이타도 쉽게 고칠 수가 없습니다. 어떤 분석 결과가 마음에 안 들어 그 부분에 해당하는 데이터를 고쳤다고 하죠. 그럼 다른 분석에서 빵구가 나서 원하지 않는 결과가 튀어 나옵니다. 그래서 전체적인 데이터 조작을 해야 하는 경우가 많이 생깁니다. 또 데이터 고친 다음 원하는 결과가 나오는지 일일이 확인을 해야 합니다. 원하는 결과물이 나올 때까지 시행착오을 계속 해야 합니다. 물론 전문가일수록 그 과정이 짧겠지만요.



그래서 대부분 경우 데이터는 놔두고 표만 고치는 경우가 많이 있습니다. 그러니 이것도 쉬운 작업이 아닙니다.

 

통계 이론을 잘 모르는 사람, 즉 SPSS 돌릴 줄만 아는 사람이 이 표를 조작하면 저 같이 전문적으로 통계 교육을 받은 사람이 보면 바로 뽀록납니다. 예를 들어 t값, F 값, 그리고 p 값(유의확률) 이 세 개의 값은 이론적으로 서로 밀접한 관계가 있습니다.

 

흔히들 측정도구의 신뢰도와 타당도 분석을 하기 위해 탐색적 요인분석을 하는데 이 경우도 조작을 하면 바로 눈에 표시가 납니다. 예를 들어 하위영역 설문문항이 2개인데 고유값이 2보다 큰 값이 나왔다면 이건 조작한 값입니다. 이론적으로 고유값은 해당 설문문항의 개수보다 클 수가 없습니다.

 

    

 

2. 이론적 방법

 

 

또 하나는 약간 양심적인 방법입니다. 이건 약간 통계 이론적인 것을 적용하는 것입니다. 통계 결과가 안 좋다는 이야기는 원하는 유의적인 결과가 안 나왔다는 이야기이거든요.

 

앞에서도 한번 이야기했지만 이 경우도 두가지 방법이 있습니다. 하나는 독립변수가 적을수록 유의적으로 나올 가능성이 많습니다. 또 하나는 모형이 간단할수록 유의적인 결과가 나올 가능성이 높습니다.

 

예를 들어 다중회귀분석에서 원하는 결과가 안 나오면 설정한 독립변수의 수를 줄이면 원하는 유의적인 결과가 나올 가능성이 높습니다. 특히 독립변수 중 상관관계가 높은 독립변수 중에서 하나나 둘 정도 없는 것으로 하고 회귀분석을 하면 원하는 결과를 얻을 수가 있습니다.

 

상관분석은 대부분 통계분석에서 기초분석으로 실시하고 논문에 실습니다. 이건 저널 같이 지면이 적은 경우에도 통상 해야 하는 분석입니다.


이 상관분석 결과를 보면 통상 우리의 상식, 즉 우리의 인과관계 상식과 일치합니다. 또 대부분 유의적으로 나옵니다. 상관계수가 우리의 상식적인 인과관계와 일치하지 않으면 앞의 데이터 변형과정에서 실수가 있는 것으로 보고 사전 작업을 제대로 했는지 확인해야 합니다.

 

상관계수 분석에서는 유의적으로 나오는데 다중 회귀분석에서는 왜 유의적으로 나오지 않는 것일까요?

 

이 상관계수 분석 결과가 단순회귀분석 결과와 일치합니다. 즉 다중회귀분석에서 독립변수를 하나만 설정한 경우입니다. 가장 간단한 모형이죠. 그러나 이 독립변수의 개수를 늘리면 점점 유의성이 떨어집니다. 즉 종속변수에 미치는 영향력이 각각 분산이 되어 독립변수가 종속변수에 미치는 영향력이 점점 작아져 유의하지 않는 것으로 나옵니다. 물론 아주 예외적인 경우도 있지만 대부분 유의하지 않게 나옵니다.

 

그래서 다중회귀분석에서 독립변수가 5개 이상인데 이 독립변수가 모두 유의적으로 나오면 이건 거의 100%로 통계 조작이라 보시면 됩니다. 그런데도 가끔 의뢰인들이 전부 다 유의적으로 나오도록 요구하는 경우가 있는데 통계 좀 아는 교수에게 걸리면 바로 뽀록납니다. 즉 다중회귀분석에서는 유의적으로 안 나오는 독립변수가 있는 것이 오히려 당연한 것이고 좋은 결과입니다.

 

즉 독립변수 개수가 5개 정도이면 2개나 3개 정도 유의적으로 나오면 이건 매우 좋게 나온 결과로 보면 됩니다.

 

또한 상관계수가 높은 독립변수 중에서 삭제를 하면 소위 다중공선성 문제도 해결할 수 있습니다. 다중공선성 문제는 일반인들이 이해하기 쉽게 말하면 회귀분석 결과 상식적인 부호와 다르게 나오는 경우를 말합니다. 즉 회귀계수가 +가 나와야 상식적인 인과관계인데 -가 나온다든지, 아니면 -가 나와야 하는데 +가 나온다든지 이런 경우를 말합니다.

 

물론 부호가 다르게 나와도 유의하지 않으면 이 경우는 별 문제가 없습니다. 유의하지 않다는 이야기는 본질적으로 회귀계수 값이 0이라는 이야기고 즉 독립변수와 종속변수간에는 아무런 인과관계가 없다는 이야기입니다. 독립변수와 종속변수간에 아무런 인과관계가 없는데도 표본추출 때문에 +나 또는 -값이 나왔다는 이야기에 불과하고 이런 경우 표 설명에서도 언급할 필요도 없습니다.

 

 

모형을 간단히 하는 또 하나의 경우는 구조방정식 모형에서 나옵니다. 구조방정식 모형은 회귀분석 모형을 동시에 여러번 하는 모형이라 생각하시면 됩니다. 즉 수학적으로 보면 연립방정식 비슷한 것입니다.

 

여기서도 독립변수의 수를 줄인다든지 아니면 매개변수가 많이 들어가면 매개변수의 수를 줄인다든지 해서 모형을 간단히 할 수 있습니다.

 

그러나 교수가 독립변수나 매개변수를 절대로 건들리지 말라고 하면 어떻게 할까요. 그럼 독립변수들간의 상관관계가 없다고 가정을 하고 돌리면 됩니다.

 

통상 구조방정식에서는 독립변수가 서로 상관관계가 있다고 가정을 하고 그래서 모형의 그림에서 양방향 화살을 표시합니다. 이 경우 원하지 않는 결과가 나오면 이 양방향 화살을 없애고 돌리면 원하는 결과를 얻을 가능성이 있습니다. 물론 이 경우 적합도는 다소 떨어집니다.

 

모형을 복잡하게 하면 모형의 적합도는 올라가되 그 대신 유의성이 있는 경우는 적어집니다. 반면 모형을 간단히 하면 적합도는 떨어지지만 유의적으로 나오는 인과관계가 많아집니다. 그래서 이론적으로 이 중간의 절충적인 결과를 얻는 것을 모형선택(Model Selection)이라 합니다. 최근 구조방정식 논문보면 수정모형이라고 추가적으로 분석하는데 이게 사실 모형선택이라는 통계이론을 적용한 것입니다. 원래는 매우 복잡한데 사회계열 교수들이 이론도 잘 모르면서 그냥 하라고 하는 것이죠. 제대로 하려면 매우 복잡하고 nested 모형이 아니면 AIC나 BIC 값을 보고 해야 합니다.

 

하여간 잘 이해가 안되면 다음 그림을 보시면 됩니다.

여기서 A와 B는 독립변수이고 C는 매개변수, D는 종속변수입니다.

 

 

원 모형

 

    



이 경우 독립변수 A와 B로 서로 독립이 아니고 상관관계가 있다고 가정한 모형입니다.


아래 간단모형에서는 독립변수 A와 B가 서로 독립이라고 가정하기 때문에 A와 B와의 상관관계를 보여주는 양쪽 화살표를 없앤 것입니다.







간단모형

 

    





사실 위의 독립변수들간의 상관관계를 가정하지 않는, 즉 독립변수들간에 독립적이라고 가정한 간단모형은 아래 그림의 간단A, 간단B 모형을 각각 독립적으로 돌리는 효과가 있습니다.

 

간단A   





간단B





 

그래서 다중공선성 문제도 잘 안나오고 그리고 원하는 유의적인 효과가 나올 가능성이 높아집니다.

 

    


 

3. 약간 비양심적 방법

 

 

약간 비양심적 방법에도 2가지가 있습니다. 하나는 p 값, 즉 SPSS에서 유의확률이라는 것이 0.05보다 약간 높은 경우 이 p값만 살짝 고치는 방법이 있습니다. 또 하나는 데이터를 늘리는 방법이 있습니다.

 

 

통상 사회과학에서 p 값이 0.05보다 작으면 유의하다고 하는데 이 p 값이 0.05보다 약간 큰 값이 나오면, 즉 p=0.053, 또는 p=0.06 이런 값이 나오면 이 경우 매우 안타깝게 유의하지 않게 나온 것입니다. 이런 경우 현실적으로는 사실상 유의적인 관계가 있다고 봐야 합니다. 이럴 경우 p 값을 살짝 0.05보다 낮게 표를 수정하면 됩니다. 이 경우도 이 수정한 p값에 맞춰 t 값이나 p 값, 또는 카이제곱값도 수정해줘야 합니다.

 

사실 이 p값을 0.05보다 작게 하는 경우 유의적으로 판단한다는 것은 유의수준을 0.05로 한다는 이야기입니다. 앞의 SPSS에서 사용하는 유의확률 이런 용어는 통계학에서 없는 용어이고요, 0.05는 유의수준(significant level)이라는 정확한 통계 용어가 있습니다. 이 유의수준은 분석하는 사람이 임의적으로 주는 값으로 꼭 0.05로 할 필요가 없습니다. 일반 사회과학에서는 SPSS에서 0.05로 하니까 이에 맞춰 무조건 0.05로 하는데 상경대에서는 0.1로 좀 넉넉하게 잡는 경우가 많습니다. 특히 경제학과 계량경제에서는요.

 

0.1로 한다는 이야기는 흔히 여론조사에서 신뢰수준을 90%로 잡는다는 이야기, 0.05로 하면 신뢰수준을 95%로 한다는 이야기와 거의 비슷한 말이라고 이해하셔도 됩니다.

 

 

또 하는 방법은 데이터 수를 늘리는 것입니다. 데이터 수가 늘수록 유의적으로 나올 가능성이 높아집니다. 에를 들어 석사논문은 설문조사를 할 경우 통상 200부 정도 하는데 박사는 500부 정도 합니다. 그럴 경우 똑같은 주제로 분석을 해도 박사 논문 결과가 유의적으로 나올 가능성이 매우 높습니다. 거의 100% 박사논문 결과가 석사논문 결과보다 좋게 나옵니다.

 

 

물론 처음에서 말한 데이터를 조작해서 데이터 수를 늘리는 것은 사실상 하기 힘들고 비양심적인 방법입니다. 가장 좋은 방법이 원 데이터에서 다시 표본을 해서 약간의 데이터를 뽑아 원데이타에 복사하는 것입니다.

 

예를 들어 데이터가 100개인데 이 데이터를 복사해서 밑에 붙여 200개로 만들면 어떤 결과가 나올까요. 물론 앞에서 이야기한 것처럼 100개 데이터를 분석한 결과보다 200개로 분석하는 것이 더 좋은 결과가 나옵니다. 그러나 제일 처음 표본의 특성에서부터 문제가 생깁니다. 표본의 특성에서 전부 짝수가 나옵니다. 그래서 딱보면 데이터 조작이라는 것을 알 수 있죠.

 

데이터가 300개인데 좀 결과가 안 좋다 그러면 이 데이터에서 50개나 100개를 뽑아서 밑에 붙여 350개 또는 400개 만들면 결과가 상당히 좋아집니다.

 

 

앞에서 이론적으로 데이터 수가 많아지면 유의적으로 나올 가능성이 높아지지만 진짜 좋아지는 이유는 따로 있습니다. 예를 들어 데이터가 (5, 6, 7, 8, 9, 10) 이럴 경우하고 데이터가 (5, 5, 5, 5, 5, 5) 이럴 경우 어떤 차이가 있을까요. 데이터가 다 같은 경우 표준편차가 0이 되어 버리죠. 이러면 표준오차도 0이 되어 버리고 모든 결과가 유의적으로 나옵니다. 실제로 통계 프로그램이 돌지는 않지만 이론적으로 그렇다는 것입니다.

 

그래서 원 데이터에서 다시 표본을 해서 밑에 붙여 버리면 같은 값을 가진 경우가 늘어납니다. 그래서 표준편차가 줄어들고 이에 따라 표본오차가 줄어들어 유의적으로 나올 가능성이 높아집니다. 실제로 결과에서 표본편차나 표준오차가 다른 논문보다 너무 작으면 이 경우도 논문조작이라고 봐도 됩니다.

 


'논문쓰기 > 통계조작,논문조작' 카테고리의 다른 글

문재인 정부의 통계 조작?  (0) 2023.10.21