통계이론/주류통계

일치통계량와 불편추정량

학위논문통계 2013. 7. 19. 17:30

 

1, 자료, Ross와 Agresti 책

 

먼저 확률에 관한 책 두 개 첨부할게요. 참 세상 좋아졌네요. 검색하면 이런 자료들이 다 나오고요, Ross 책 두 권입니다. 하나는 확률 기초와 확률과정 학부 수준 책인데 보면 굉장히 깔끔하게 잘 정리된 책입니다. 이 책에서 자주 언급할 겁니다. 그리고 Agresti 범주형 자료 분석 책도 첨부합니다.

 

 

 

 

 

2. 글 진행순서

 

글 진행 순서는 추정량의 바람직한 기초 성질하고, 그리고 주류 중의 주류인 UMVUE, 주류 중 비주류인, 그러나 실제는 거의 대부분의 경우 사용하는 Fisher의 MLE를 설명하고, 그리고 주류 중의 주류 쪽 연구과정에서 나온 충분통계량, 지수계열분포하고, 그런 다음 조건부 확률 분포를 하고, EM 알고리즘으로 넘어가겠습니다. 그 동안 어디에 넣을지는 아직 잘 모르겠지만 자주 나오는 확률분포와 통계량의 분포를 구하는 일반적인 방법 세 가지를 소개하겠습니다.

 

 

 

 

 

 

3. 일치통계량

 

강한 대수의 법칙에서 봤듯이 임의 표본 (X1, X2, ..,, Xn)에서 나온 표본평균은 항상 E(X)로 확률1로 수렴합니다. 일반인이 이야기하는 표본평균은 항상 모집단의 평균으로 수렴한다는 이야기이죠.

 

상식과도 일치됩니다. 표본평균은 데이터 (X1, X1, ..., Xn)의 중심값이고 이 데이터는 확률변수 X의 분포에서 추출한 것이기 때문에 데이터가 많아지면 원래 가정된 확률변수 X의 분포의 중심으로 갈 것으로 생각할 수 있습니다.

 

여기서 우리는 X의 분포에 대해 어떠한 가정도 하지 않았습니다. X가 정규분포를 해야 할 이유가 없습니다. 중심극한 정리에서도 이야기 했지만 X는 어떤 분포라고 괜찮습니다.

 

문제는 표본평균이 E(X)의 일치통계라는 것은 알겠는데 이것만 가지고 충분하냐는 것이죠. 기초적인 경우는 충분합니다. 대부분 학부에서 이야기하는 분포의 모수는 E(X)로 표시됩니다. 예를 들어 베르누이 시행, 이항분포, 포아송 분포, 지수분포, 정규분포 등...

 

그러나 회귀분석의 경우 회귀계수의 추정량은 회귀분석의 가정을 만족시키면 당연히 일치통계량이 되지만 회귀분석의 가정을 만족시키지 못하면 일치통계량이 되지 않습니다. 예를 들어 경제변수들의 경우 시계열 변수의 경우 오차항들이 독립적이지 않습니다. 이와 같이 모형의 가정을 만족하지 못하는 경우 일치통계량이 되지 않는 경우가 생깁니다.

 

일치통계량은 이 정도만 하죠. 이게 목적이 아니니까요.

 

 

 

 

 

 

4. 불편추정량

 

모수 u의 추정량 T(X)가 E[T(X)]=u를 만족하면 이때 추정량 T(X)를 모수 u의 불편추정량이라고 합니다. 꼭 이걸 지켜야 하는 것은 아닙니다. 주류중의 주류는 이걸 중요시하는데 그 이유가 있습니다. 앞에서 이야기하는 MSE를 가장 작게하는 통계량을 찾을 능력이 안되는 것입니다. 그래서 할 수 없이 모든 통계량에서 찾는 것이 아니라 일단 불편 추정량 중에서 MSE가 가장 작은 것을 찾자는 것이죠.

 

그래서 앞의 MSE의 공식을 보면

 

MSE=Var(T(X))+bias^2

 

인데 뒤 부분의 bias=E[T(X)]-u가 0이 되어 불편추정량의 경우 MSE가 가장 작은 통계량을 찾는 문제는 T(X)의 분산이 가장 작은 통계량을 찾는 문제가 됩니다. 그래서 이런 성질을 갖는 통계량을 MVUE(minimum variance unbiased estimator)라고 합니다. UMVUE는 uniformly minimum variance unbiased estimator라고 하는데 MVUE나 UMVUE는 같은 뜻으로 사용합니다.

 

 

 

1) UMVUE

 

uniform이란 말은 수학에서 일반적으로 사용하는 용어입니다. 정의되는 공간 전체에서 대해서 어떤 성질을 만족한다는 개념입니다. 비교되는 개념이 pointwise이고요. 이건 한점 한점에서 만족한다는 것이고요.

 

 

하여간 우리의 경우 아주 최악의 경우를 들어 설명하겠습니다. 확률변수 X는 성인남자의 키입니다. 모수는 평균 키 E[X]=u 이고요. u에 대해 모르지만 예를 들어 173.524cm라고 하죠. 앞에서 설명했듯이 T(X)=k, 즉 상수함수도 통계량입니다.

 

 

그래서 누가 T(X)=173.524를 u에 대한 추정량으로 하자고 주장했으면 이 추정량은 어떤 다른 추정량 보다 우월합니다. 정확하게 맞춘 것이거든요. 그래서 표본평균이 아무리 괜찮은 추정량이라고 해도 실제 u=173.524인 경우 T(x)=173.524를 추정량으로 한 것보다는 좋을 수가 없습니다. 그러나 u가 173.524가 아니면 이 T(X)=173.524라는 추정량은 개판이거든요. 그래서 이런 상수함수 통계량도 고려하면 u의 모든 값에서 즉, uniformly 좋은 추정량을 발견할 수 없습니다. 그래서 이론 전개시 아예 이런 상수추정량은 제외시킵니다.

 

 

이렇게 상수통계량을 제외하여도 UMVUE를 구하기 힘들다는 것이죠. 그래서 일단 불편추정량으로 제한을 한 다음 그 중에서 가장 분산이 작은 통계량을 찾아갑니다. 그래서 주류 통계학 이론의 초반 부분은 이 과정에 대해 상당히 상세한 설명을 합니다. 그러나 계속 강조하지만 현실 통계학에서는 못 찾는다고 생각하시면 됩니다. 그래서 전부 다 MLE를 사용하고요.

 

 

회귀분석의 경우 OLS(ordinary least square, 여러분이 아는 회귀계수 추정량, 즉 독립변수들의 생성하는 공간에 투사하여 나온 추정량)를 사용하여 나온 회귀계수 추정량도 UMVUE가 아닙니다. 이건 BLUE라고 합니다. best linear unbiased estimator라고 합니다. 이건 종속변수 Yi들의 선형결합 중 불편추정량이면서 분산이 가장 작은 추정량이라는 개념입니다. 그래서 예를 들어 Yi^2의 함수라든지 log(Yi)들의 함수라든지 이런 것들이 결합하여 된 추정량 중에서 불편추정량이면서도 현재 쓰고 있는 추정량보다 분산이 더 작은 추정량, 즉 더 좋은,  효율적인 추정량이 있을 수 있다는 것입니다. 그럴 가능성은 별로 없어 보이지만 이론적으로는 그렇다는 것입니다. 

 

 

 

 

2. 불편추정량의 예

 

T(X)=X1은 E[X]=u의 불편추정량입니다. 일반적으로 T(X)=Xi는 E[X]=u에 대한 불편추정량입니다. Xi는 원래 가정된 X의 분포에서 온 것이기 때문에 당연히 Xi의 기댓값 E{Xi]=E[X]=u 이죠, 여기서 첨자는 단순히 설문지 코딩 순서에 불과합니다. 그래서 X는 성인남자의 키라고 할 때 여러분이 만 명 조사했다면 추정량 T(X)=X1는 첫 번째 코딩한 성인남자의 키입니다.

 

불편추정량은 무수히 많습니다. 예를 들어 G(X)와 H(X)가 불편추정량이고 하죠, 즉

 

 

E[G(x)]=E[H(X)]=u

 

 

라고 하면 가중치를 준 T(x)(중학교 때 배운 내분점)

 

 

 

 

  

 

쩝. 이미지가 자꾸 깨지네요. 마지막에 H(X)입니다. 역시 불편추정량입니다. 기대값 E은 선형함수이므로

 

 

 

  U

 

 

 

 

가 됩니다. 그래서 두 개의 불편추정량의 내분점은 모두 불편추정량입니다. 즉, 두 개의 불편추정량 G(x)와 H(X)가 있을 때 이것을 연결하는 선상의 모두 통계량은 불편추정량입니다.

 

 

 

 

 

 

 

앞에서 이야기한 시그마^2에 대한 추정량에서 우리가 흔히 아는 표본분산

 

 

 

  

은 MLE인데 이건 불편 추정량이 아닙니다.

 

 

 

 

 

가 되어 시그마^2보다 약간 크게 됩니다. 그러나 n이 커지면 앞부분이 1이 되어 별 문제가 없겠죠.(맞나, 분자, 분모가 반대로 된 기분도 들고, 한번 확인해보세요)

 

 

 

 

3. E[X]가 왜 중요한가

 

E[X]는 분포의 중심값 입니다. 흔히들 모집단의 평균 개념이라고 생각하면 됩니다. 이 중심값, 중앙값의 개념으로 많이 사용되는 것이 극빈값(mode)와 중앙값(median) 등이 있고요. 특히 이 기대값, 즉 평균이 많이 사용되는 이유는 앞에서 이야기한바처럼 우리가 많이 사용하는 분포의 모수가 E[X]이기 때문입니다. 이 평균 개념인 모수를 위치 모수(location 모수)라고 합니다. 반면에 분포의 퍼짐을 측정하는 시그마는 척도 모수(scale 모수)라고 하고요. 우리는 대부분 이 위치 모수의 변화, 즉 평균적인 변화의 흐름을 보고자 합니다. 또한 Y=X+c이면 u=u+c가 됩니다. 이런 걸 translation에 따라 불변한다고 합니다.

 

또한 통계이론을 전개하기 쉽습니다. 이 기대값의 추정량이 표본평균이고 이 표본평균은 분포를 구하기 쉽고, 또 중심극한 정리 때문에 신뢰구간 추정이라 가설검증을 쉽게 할 수 있습니다.

 

 

 

 

 

4. 기대값 E[X]의 성질

 

 

E[X]는 다양하게 구해질 수 있고, 관련된 여러 가지 공식이 있습니다. 대표적인 것이

 

 

 

 

 

뭐 어려워 보이지만 간단한 개념입니다. Y는 성인의 키라고 하면 왼쪽의 E[Y]는 성인의 평균 키가 됩니다. 오른쪽은 X를 성별이라 하면 먼저 남자의 성인 키의 평균과 여자의 성인키의 평균을 구한 다음 다시 남자와 여자의 비율을 맞춰 다시 평균을 구한다는 것입니다.

 

X는 연령이라고 하면 연령별로 각각의 성인의 평균 키를 구하고 이 평균키를 연령별 가중치를 주어 다시 평균을 구한다는 것이죠. 그래서 연령을 점점 더 세분하면 X는 연속형 변수가 되는 것이고요.

 

애초에 E[Y]를 구하기 힘들 때 이렇게 조건부 평균을 구하여 다시 평균을 구하는 것은 매우 많이 사용되는 기법입니다. Ross 확률모델책을 참고하시기 바랍니다. 자세히 공부할 가치가 있는 부분입니다. 저는 다 까먹었지만.

 

 

이렇게 조건부 평균을 구한 다음 가중치를 주지 않고 단순하게 다시 평균을 구할 때 생겨나는 역설이 심슨의 역설(Simpson의 paradox)입니다. 복잡하게 설명한 책들이 많지만 기본적으로 이 역설이 나오는 이유는 가중평균을 안 하고 단순평균했기 때문입니다. 사회과학에서 이 심슨의 역설에 해당하는 현상을 논문에서 밝히면 굉장히 좋은 논문이라 생각할 수 있겠네요. 심슨의 역설은 예를 들어 이런 것입니다. 일본과 한국의 평균 키를 비교할 때 일본이 남자나 여자나 모두 한국보다 평균 키가 큽니다. 그러나 남녀 전체 평균 키를 비교하면 한국의 평균키가 일본의 평균 키보다 클 수 있습니다. 남녀의 비율이 차이가 많이 나면요. 이 Simpson의 역설이 유명해진 것은 미국의 사형판결에서 인종차별 문제 때문에 그렇습니다.

 

Agresti 논문을 참조하시기 바랍니다.

 

 

 

 

 

5. 일치통계량과 불편추정량

 

다음 그림은 일치통계량과 불편 추정량의 개념을 비교한 것입니다. 모수는 E[X]=u라고 하고 그리고 표본평균은 일치통계량이기도 하고 불편추정량이기도 합니다.

 

먼저 일치통계량 개념에서는 기대값이 없습니다. 그리고 표본 수 n이 무한대로 변합니다. 반면에 불편추정량은 기댓값이 있는 대신에 표본 수 n이 없습니다. 즉 표본 수 n이 무슨 값이든지 성립한다는 이야기입니다.

 

 

아래 그림을 보죠, 빨간색은 n이 커질 때 움직임입니다. A가 하나, B가 하나 n이 커지면 모수 u에 수렴해 갑니다. 어떤 사람이 하던 이 경로(표본 경로, sample path)는 모수 u에 접근합니다. 여기서 정확한 확률 수렴 개념을 적지 않겠습니다. 그냥 확률1로 접근한다고 이야기 하겠습니다. 관심있는 분은 조금 어려운 책들을 보시고요.

 

 

 

 

반면에 불편추정량은 세로로 파란색을 그린 부분입니다. 표본 수 n이 무엇이 되던 그 당시 불편추정량의 분포의 중심은 u가 된다는 이야기입니다. 예를 들어 만개의 설문조사 회사가 똑같은 표본 수, 10이든, 100이든 똑같은 상황에서 설문조사를 합니다. 그럼 각 설문회사에서 나온 표본비율 만 개의 r 값의 분포를 대강 그려보면(그림에서 파란색 분포) 그 중심이 진짜 모집단 비율 p와 같다는 것입니다.

 

경제학 하는 분은 n을 시간 t로 보면 일치성은 시계열 자료, 불편성은 횡단자료의 개념 비슷하게 생각하면 됩니다.

 

 

다음은 불변성(invariance)에 대해서 조금 이야기 하겠습니다.

 

 

 

Ross확률기초.pdf

 

Ross확률모형.pdf

 

Categorical_Data_Analysis.pdf

 

 

 

 

 

 

 

 

 

 

Ross확률기초.pdf
3.05MB
Categorical_Data_Analysis.pdf
2.82MB
Ross확률모형.pdf
3.65MB

'통계이론 > 주류통계' 카테고리의 다른 글

Rao-Balckewll정리, 조건부 기대값  (0) 2013.08.05
불변  (0) 2013.07.24
표준오차, 일치통계량  (0) 2013.07.14
베이지안, MSE, 일치, 불편, 불변   (0) 2013.07.09
들어가가. 추론, 통계량, 추정량, 모형  (0) 2013.07.07