표본수와 이상치 그 응용

기타통계이야기/표본수와 이상치

표본수와 이상치 그 응용

학위논문통계 2013. 3. 26. 21:44

일단 표본수(설문응답자수)가 많으면 중심극한정리나 대표본 성질에 의해 정규분포로 가지 때문에 이론적으로 좋습니다.

그런 문제를 떠나 직관적으로 이해를 하면

표본수가 적으면 일단 이상치(outlier)에 의해 통계결과가 심각하게 왜곡될 수 있습니다. 조사한 사람이 10명 미만인데 유별난 사람 1,2명 끼면 평균적 경향이 심하게 왜곡될 수 있다는 것이죠. 또한 표본수가 많으면 이런 이상치가 있어도 서로 반대쪽으로 이상치가 있어 서로 상쇄될 수 있습니다.

이런 이상치의 예로서 최근 외국에서 돌아온 학생들이 많습니다. 만약 그런 학생들이 있는 반의 영어나 수학점수는 일반 국내 거주 한국 학생들의 평균 점수를 심각하게 왜곡할 수 있습니다. 영어는 평균이 상당히 좋게 나올 수 있지만 수학은 반대로 평균값이 심하게 낮게 나올 수 있겠죠.

이상치의 결정판이 회귀분석의 마스킹 효과입니다. 몇 몇 특이한 값이 회귀계수의 값을 완전히 바꿔 놓을 수 있습니다. 또한 적합도를 심각하게 낮출 수도 있습니다.

그러나 교과서에 나오는 세세한 분석은 현실적으로 할 수 없습니다. 돈과 시간이 많이 들어가는 대형 프로젝트나 매우 중요한 분석이 아니면 할 수 없습니다.

하여간 이런 이상치가 매우 골치 아픈 데이터인데 바꿔 생각하면 중요한 응용이 될 수 있습니다. 예를 들어 주식시장에서 이상한 거래라든지, 환경오염을 사전에 발견한다든지, 세금포탈자를 발견한다든지, 건강보험에서 수가과당청구라든지 이런 곳에 응용이 될 수 있다는 것이죠.

이런 것은 통계를 몰라도 우리가 상식적으로 생각해서 간단히 할 수는 있습니다. 그러나 미묘한 차이가 날 수 있는 부분이 있을 수 있습니다. 예를 들어 세금과 소득간에서 회귀분석을 하면

즉 세금=b0+b1*소득 (누진세이기 때문에 변수변환을 해야 하겠지요)

에서 소득의 양극단에 비해 소득의 평균값에서 신뢰구간이 매우 좁아집니다. 이 이야기는 소득의 평균 지점에서는 세금액이 조금만 달라져도 이건 세금 포탈자로 의심을 해 봐야 한다는 것이죠.

저작자표시 비영리 변경금지

현재글표본수와 이상치 그 응용

통계분석 사이트입니다. 간단한 논문 컨설팅은 무료이고 분석비용은 분석 수준에 따라 저널 통계 30-40, 석사 40-50, 박사 80-120 입니다. 구조방정식 과 계량경제 분석이 조금 비싼 편이고 박사는 학위 받을때까지 무료 수정해드립니다. 전화는 010-7547-3257, 멜은 datana@daum.net, 은행은 국민 638702 01 149167, 하나 482 910458 44707 허면 입니다. 주소는 경기도 부천시 원미구 중동 계남로 123

벤투호 이강인 본선 예측, 정치 박진 해임 경제 민주연구원 물가, 구조방정식 조절효과 모형선택,

Today :
Yesterday :

학위논문통계

표본수와 이상치 그 응용

'기타통계이야기/표본수와 이상치'의 다른글

티스토리툴바

« 2024/04 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30