통계이론/주류통계

표준오차, 일치통계량

학위논문통계 2013. 7. 14. 13:34

 

 

 

1.

 

흔히 일반인들이 이야기하는 통계는 통상 정부나 기관에서 나오는 통계를 이야기 하지만 앞에서 본 봐와 같이 학술적인 의미에서 통계는 여러분들이 고등학교 수학에서 나오는 확률, 통계입니다. 고등학교에서 왜 이렇게 어려운 것들을 가르치는지 모르겠습니다.

 

또  흔히 이야기하는 통계의 문제점, 사기, 왜곡 이런 것들을 이야기 할 때 평균 이야기를 많이들 합니다. 평균이 문제가 많다는 것이죠. 그러나 이런 이야기는 통계 전공하는 사람에게는 별 의미가 없습니다.

 

앞에서 이야기했듯이 우리가 분포를 가정하고 그 분포에 있는 모수 u에 대해 추정을 하면 이젠 가정한 분포가 정확한 함수식을 가지게 됩니다. 그러면 다양한 확률값을 구해 낼 수가 있거든요. 오히려 진짜 문제는 가정한 분포가 현실에서 관찰하는 분포와 일치하는가입니다. 통상 정규분포를 많이 가정하지만 정규분포하는 경우 그렇게 많지 않습니다. 그래서 변수 치환을 권유하고 있죠. 예를 들어 부동산 값의 분포는 균형분포가 아니고 심각하게 한쪽으로 치우쳐 있는 것으로 알려져 있습니다. 따라서 log 치환을 해야 한다는 것이죠. 대부분의 경제변수들이 이런 경우에 해당합니다.

 

우리가 분포를 가정하고 모수를 추정하면 이젠 실제 데이터는 아무런 의미가 없습니다. 그래서 천개, 만개, 백만개 데이터를 힘들게 구했다고 해도 이젠 이것들을 쓰레기 통에 갖다 버려도 됩니다. 즉 {가정된 분포, 모수 추정값} 이 두 개의 정보만 가지고 있으면 된다는 것이죠.

 

이게 충분통계량(sufficient statistics)에 깔린 생각입니다. 충분통계량의 값만 알고 있으면 기존의 데이터를 다 날려버려도 기존의 데이터와 같은 의미의 데이터를 언제든지 생성할 수 있다는 것이죠. 이론적으로, 잘 이해가 안되시면 Lehman 책 37p 충분통계량 편에 나오는 예를 참조하시기 바랍니다.

 

물론 현실에서는 진짜 그렇게 하면 안되죠. 귀중하게 구한 데이터를 왜 버립니까. 다른 통계 방법론을 사용할 수 있고, 다른 목적의 분석도 할 수 있죠.

 

 

 

 

2. 표준오차(standard error)

 

앞에서 MLE가 나오고 UMVUE라는 말이 나오니까 굉장히 어려운 것 같은데 나중에 다 설명 드리겠습니다. 한번 읽고 다 이해가 되면 통계학과 교수들 밥 굶어 먹죠.

 

MSE를 이야기 했는데 주류 중의 주류 입장이 이 MSE가 가장 짧은 통계량 T(X)를 구하는 것이 목적이라고 했습니다. 그러나 이게 통계학책이나 논문에서는 자주 나오는데 일반인은 사실 구경하기 힘듭니다. 오히려 일반인이 많이 접촉하는 것은 표준오차(standard error)입니다. 즉

 

 

S.E.(T(X))=

 

 

이 표준오차는 T(X)의 표준편차입니다. 즉 T(X)의 분산을 루트 씌운 것입니다.

 

주의: MSE에서는 위에 제곱의 모양이 있지만 표준오차는 제곱 모양이 없습니다.

 

 

MSE가 논문에 자주 나오는 이유는 두 개나 두 개 이상의 추정량을 비교할 때 MSE가 수학적으로 깔끔하게 풀리면 다행인데 대부분 잘 풀리지 않습니다. 그러면 컴퓨터에서 시뮬레이션 해서 각각의 추정량의 MSE를 추측해냅니다. 그래서 어떤 것이 좋다, 아니면 이런 경우에는 이 추정량이 좋고, 저런 경우는 저 추정량이 좋다 이런 것들을 많이 한다는 것이죠. 수학적으로 못 풀어도 시뮬레이션해서 이런 규칙성만 발견해도 좋은 논문입니다.

 

그러나 간단하거나 흔히 많이 쓰는 회귀분석의 경우 이 MSE를 잘 쓰지 않습니다. 많이 사용하는 것이 여론조사시 나오는 오차한계에서도 나오고 SPSS에서 회귀분석하면 결과물에 회귀계수 모수 베타의 추정량인 베타 hat의 표준오차가 나옵니다. 이런 경우 대부분 불편추정량이고 그래서

 

 

MSE=T(x)의 분산+편의^2

 

 

에서 뒤 부분이 없어져

 

 

 

MSE=T(X)의 분산

 

 

이런 식으로 변해 버립니다. 따라서 T(x)의 분산, 또는 여기에 루트를 씌운 표준오차를 많이 사용한다는 것이죠.

 

그리고 좀 복잡한 경우 대부분 대수의 법칙을 사용합니다. 표본 수가 상당히 크다고 가정한다는 것이죠. 그럼 대부분의 합리적이 추정량은 표본 수가 클 때 정규분포의 모양으로 가고 T(x)의 기대값도 모수와 일치합니다. 즉 근사적으로

 

 

 

E[T(x)]=u

 

 

가 되어 근사적으로 편의가 0이 되어 버립니다. 그래서 이런 경우도 근사적으로

 

 

MSE=T(x)의 분산

 

 

이 되어 버린다는 것이죠.

 

 

그래서, 예를 들면 여론조사에서 표본비율 즉 표본 지지율은 n이 상당히 크면 중심극한정리에 의해 근사적으로 정규분포를 합니다. 즉

 

r-> N(p, var(r))

 

 

이걸 표준화 하면

 

Z-> N(0, 1)

 

이 되고요.

 

 

 

 

 

그럼

 

Pr( -1.96 < Z < 1.96)

=Pr(-1.96*표준오차(r) < r-p < 1.96*표준오차(r))

=Pr( r-1.96*표준오차(r) < p < r+1.96*표준오차(r))

=0.95

 

 

그래서 95% 신뢰수준에서 우리가 알고 싶어 하는 진짜 지지율은 r+1.96*표준오차(r)과 r-1.96*표준오차(r) 사이에 있다고 이야기 합니다. 여기서 1.96*표준오차가 흔히 여론조사에 나오는 오차입니다.

 

만약 귀무가설 H0가 p=0.3 즉 진짜 지지율이 30%이다. 그리고 대립가설이 지지율이 30%가 아니다. 이럴 경우 p에 0.3을 대입하면

 

 

Pr(0.3-1.96*표준오차(r) < r < 0.3+1.96*표준오차(r)=0.95

 

 

가 됩니다.

 

그럼 실제 관찰한 r 값이

 

 

C.R={r: r< 0.3-1.96*표준오차(r),  또는,  r> 0.3+1.96*표준오차(r)}

 

 

이 CR(기각역, critical region)에 들어가면 유의수준 0.05에서 H1을 받아 들이고, 즉 진짜 지지율이 0.3이 아니다라고 받아 들이고, 표본지지율이 이 CR에 들어가지 않으면 유의수준 0.05에서 H0 즉 귀무가설, 진짜 지지율이 0.3이다라고 받아 들입니다. 통계학에서 가설검증 이론은 주어진 가설에서 이 CR을 찾는 문제입니다. 물론 유의수준에 따라서 이 CR의 크기가 다르겠죠.

 

마찬가지로 회귀분석에서 회귀계수 베타에 대한 추정량 베타 hat은 정확하게 정규분포하고 불편추정량입니다. 따라서

 

 

 

 

 

 

그래서 위의 방법과 똑같이 회귀계수 베타에 대한 신뢰구간을 구할 수 있고, 베타에 0을 대입하여 귀무가설 H0: 베타가 0이다(즉, 독립변수가 영향력이 없다)와 대립가설 H1: 베타가 0이 아니다(즉, 독립변수가 영향력이 있다)를 가설검증할 수 있습니다.

 

일반적으로 사회과학에서는 귀무가설을 쓰지 않는데 좋지 않은 관행입니다. 그리고 이 표준오차도 대부분 모르는 값 모수를 포함하고 있어 이것을 또 추정해야 합니다. 회귀분석에서 z 검증이 되지 않고 t 검증이 나오는 이유입니다. 자세한 것은 기초통계책을 보시기 바랍니다.

 

 

주의: 지지율이 r1, r2, r3 등이 있을 때, 즉 문재인 지지율, 박근혜 지지율, 기타 후보 지지율이 있을 때 추정량 r1, r2, r3의 경우, 또는 다중회귀분석에서 베타(i)의 추정량 베타hat(i)의 경우 서로 독립적이 아닙니다. 그래서 여러개를 동시에 신뢰구간을 구한다든지, 아니면 가설 검증을 할 경우 상당한 문제가 발생합니다. 이걸 동시 추론(simultaneous inference)의 문제라고 합니다. 만약 r1, r2, r3가 다행히 서로 독립이라면 신뢰구간 모양도 사각형 모양, 또는 육면체 모양을 하게 되는데 이게 독립적이 아니라서 타원체 비슷한 모양으로 신뢰구간이 생겨납니다.

 

 

 

여기서 우리는 다음과 같은 문제점이 있다는 것을 미리 이야기를 해야 될 것 같네요.

 

1) T(X)를 구했다고 해도 T(X)의 분포를 어떻게 구할 것인가? T(x)의 분포를 알아야 추론 중 신뢰구간 추정이나 가설검증을 할 수 있거든요. T(x)를 알았다고 해도 이건 지금 상태로는 점추정 밖에 한게 없거든요. 확률변수의 함수의 분포를 구하는 방법은 몇 가지 있습니다. 나중에 간단히 설명 드리겠습니다. 기초통계학책에는 아마 나오지 않을 겁니다.

 

2) T(X)와 같은 깔끔한 수학적 표현(closed form이라고 합니다)을 구하지 못하면 어떻게 되는가 하는 문제입니다. 조금 복잡한 모형으로 가면 MLE의 수학적 표현을 구하지 못합니다. 이런 경우 컴퓨터로 수치해석 방법으로 찾아가야 합니다. 이럴 경우 이 MLE의 분산이나 표준오차는 어떻게 구할 것인가하는 문제가 있습니다. 이때 나오는 것이 Fisher의 정보행렬입니다.

 

나중에 좀 더 구체적으로 설명 드리겠습니다.

 

 

 

 

3. 일치 통계량(consistent statistics)

 

이 일치성은 어떤 추정량이라도 최소한 만족시켜야 한다고 이야기를 합니다. 즉 간단히 이야기해서 어떤 모수 u가 있고, 이 모수 u에 대한 추정량 T(X)가 있을 때 n이 커지면 이 T(X)의 값이 u로 수렴해야 한다는 이야기입니다. 예를 들어 성인남자 키의 모집단 평균 u에 대해서 알고 싶다는 것이죠. 그래서 표본을 뽑아 이 u에 대한 추정량으로 표본평균을 사용했습니다. n을 점점 크게 하면 이젠 표본이 모집단이 되고 그럼 이 T(X)의 값은 성인남자 키의 평균이 되어야 한다는 것이죠. 확률 1로.

 

이 일치통계량에 대해 조금 더 알아보죠.

 

사건 A를 다음과 같이 정의하죠. A=(주사위를 던질 때 1과 5가 나온다)

 

그럼 확률변수 X를 다음과 같이 정의합니다. 여기서 오메가는 동전을 던질 때 관찰된 숫자이고요, 그래서 이 경우 indicator 함수(1, 0을 값으로 갖은 함수입니다)를 사용하여 정의하면

 

if 동전을 던질 때 1이나 5가 나오면

 

 

 

 

  else 즉, 주사위를 던졌을 때 2,3,4,6이 나오면

 

 

 

 

이렇게 정의 합니다. 그럼

 

 

E[X]=1*Pr(A)+0*Pr(not A)=Pr(A)

 

 

가 됩니다.

 

 

그런 다음 n 크기의 임의표본 (X1, X2, ..., Xn)을 뽑습니다. 즉 n번 동전을 던집니다. 여기서 표본평균은 표본비율이 됩니다. 즉,

 

 

더블클릭을 하시면 이미지를 수정할 수 있습니다=사건A가 나오는 횟수/전체 시행한 횟수 n

 

 

 

이렇게 정의됩니다. 그럼 앞에서 이야기한 강한 대수의 법칙(SLLN)에 의해 확률1로

 

 

 

 

  

그래서 시행횟수 n이 커지면 확률1로

 

사건A가 나오는 횟수/시행한 횟수 ---> 사건 A가 나올 확률

 

 

 

가 된다는 것을 알 수 있습니다. 이게 고등학교 수학책에 나오는 확률의 정의입니다. 이 정의에 따르는 학자를 빈도학자라고 하고 이 정의를 반대하는 사람들을 베이지안이라고 합니다. 즉 베이지안은 frequency 와 probabilty를 구별해야 한다고 주장합니다.

 

위의 Indicator 함수를 이용하는 것은 매우 중요한 기법입니다. 수학 해석학 교과서에서 가장 근본적인 증명은 이 방법으로 합니다. 이 indicator 함수의 선형결합으로 만들어 함수의 근사모양으로 만든 다음 이걸 점점 세밀하게 해서 연속형 함수로 수렴시켜서 증명을 합니다. 여러분이 고등학교때 배운 적분의 정의를 생각하시면 됩니다.

 

 

하여간 위의 주사위 예를 들어 보면

n을 5로 하죠. 주사위를 던질 때 1이나 5가 나오면 1, 그렇지 않으면 0이 된다는 것을 명심하시고요.

 

시행횟수 n

관찰된 값

Xi의 값

표본평균=표본비율

1

1

1

1

2

3

0

1/2

3

2

0

1/3

4

5

1

2/4

5

3

0

2/5

 

 

그래서 맨 오른쪽 값이 n이 커지면 Pr(1이나 5가 나올 확률)=1/3로 수렴해 간다는 것이죠. 누가 실험을 하든 그렇게 된다는 것입니다(즉 확률1로서). 그래서 강한 대수(SLNN)는 우리가 알고 있는 확률의 정의에 대한 강한 근거로 사용됩니다.