기타통계이야기/표본수와 이상치

표본수와 이상치 그 응용

학위논문통계 2013. 3. 26. 21:44

 

일단 표본수(설문응답자수)가 많으면 중심극한정리나 대표본 성질에 의해 정규분포로 가지 때문에 이론적으로 좋습니다.

 

그런 문제를 떠나 직관적으로 이해를 하면

 

표본수가 적으면 일단 이상치(outlier)에 의해 통계결과가 심각하게 왜곡될 수 있습니다. 조사한 사람이 10명 미만인데 유별난 사람 1,2명 끼면 평균적 경향이 심하게 왜곡될 수 있다는 것이죠. 또한 표본수가 많으면 이런 이상치가 있어도 서로 반대쪽으로 이상치가 있어 서로 상쇄될 수 있습니다.

 

이런 이상치의 예로서 최근 외국에서 돌아온 학생들이 많습니다. 만약 그런 학생들이 있는 반의 영어나 수학점수는 일반 국내 거주 한국 학생들의 평균 점수를 심각하게 왜곡할 수 있습니다. 영어는 평균이 상당히 좋게 나올 수 있지만 수학은 반대로 평균값이 심하게 낮게 나올 수 있겠죠.

 

 이상치의 결정판이 회귀분석의 마스킹 효과입니다. 몇 몇 특이한 값이 회귀계수의 값을 완전히 바꿔 놓을 수 있습니다. 또한 적합도를 심각하게 낮출 수도 있습니다.

 

그러나 교과서에 나오는 세세한 분석은 현실적으로 할 수 없습니다. 돈과 시간이 많이 들어가는 대형 프로젝트나 매우 중요한 분석이 아니면 할 수 없습니다.

 

하여간 이런 이상치가 매우 골치 아픈 데이터인데 바꿔 생각하면 중요한 응용이 될 수 있습니다. 예를 들어 주식시장에서 이상한 거래라든지, 환경오염을 사전에 발견한다든지, 세금포탈자를 발견한다든지, 건강보험에서 수가과당청구라든지 이런 곳에 응용이 될 수 있다는 것이죠.

 

이런 것은 통계를 몰라도 우리가 상식적으로 생각해서 간단히 할 수는 있습니다. 그러나 미묘한 차이가 날 수 있는 부분이 있을 수 있습니다. 예를 들어 세금과 소득간에서 회귀분석을 하면

 

즉 세금=b0+b1*소득 (누진세이기 때문에 변수변환을 해야 하겠지요)

 

에서 소득의 양극단에 비해 소득의 평균값에서 신뢰구간이 매우 좁아집니다. 이 이야기는 소득의 평균 지점에서는 세금액이 조금만 달라져도 이건 세금 포탈자로 의심을 해 봐야 한다는 것이죠.