통계이론/주류통계

Rao-Balckewll정리, 조건부 기대값

학위논문통계 2013. 8. 5. 12:33

 

1. 휴.. .글하나 쓰는데 엄청 시간이 걸리네요. 옛날에 공부한 것도 다시 읽어 기억해야 하고, 이 글 정리하는 일도 만만치 않네요. 칠판에 설명하면 간단한 일인데요.

 

아래 책은 인터넷에서 구한 책입니다. 이것도 기초통계와 수리통계 중간 정도인데 최근의 나온 내용들이 많이 있는 것 같습니다. 학생 고마워요.

 

 

 

davison모델선택책.pdf

 

 

 

Rao-Blackwell 정리 부분 한번 보시고요. 그리고 포아송 예제를 한번 보시기 바랍니다. 불변의 성질이 얼마나 멋있게 적용되는지요.

 

 

 

 

 

 

 

2. 일치성과 불편추정량의 예를 하나 더 볼까요. X는 균등분포 U(0, a)한다고 하죠. 7월달 1일 강우량의 분포가 균등분포 비슷하게 될려나?

 

x(n)는 순위통계량입니다. 즉 관찰된 데이터에서 가장 큰 값이 됩니다. 아래 그림 참조

 

n이 점점 커져가면 X(n)는 a로 접근합니다. 누가 표본을 뽑든간에요. 그래서 X(n)는 모수 a에 대한 일치통계량이라 할 수 있습니다.

 

그러나 아무리 표본을 크게 해도 X(n)는 a보다 작습니다. 즉 X(n) < a입니다. 따라서

 

E[X(n)] < a

 

입니다. 그래서 X(n)는 n이 아무리 커져도 모수 a에 대해 불편추정량이 되지 못합니다. 정확하게

 

E[X(n)] = a* n/(n+1)

 

입니다.

 

불편추정량의 황당무계한 예는 Jaynes 교수의 Probability Theory- the logic of science책에서 불편추정량 부분을 보시기 바랍니다. 물리전공하시는 분이고 entropy에 대해 거의 유일하게 제대로 이해하시는 분으로 아시면 됩니다. 이 교수는 이쪽 entropy 베이지안하는 사람들에게 거의 신적인 취급을 받는 분입니다. 이 책을 완전히 완성하지 못하고 약 15년 전에 돌아가셨습니다. 한국에서 이 책을 사면 십만원 정도 들여야 할 겁니다. 그러나 인터넷을 검색하면 pdf는 모르겠지만 ps(어도비 2D 언어)화일로는 돌아다닙니다.

 

 

 

 

 

3. 오늘은 주류 중 주류인 UMVUE에 대해 조금 더 이야기를 하겠습니다. 말이 주류 중 주류, 주류 중 비주류하고 했지만 사실 주류통계학자간에 싸우는 것은 아닙니다. 그냥 이런 것이 있다고 배우고 지나가는 것이죠. 앞에서도 이야기 했지만 완전 비주류인 베이지안만 열심히 시비를 거는거지 주류통계학자들은 별 신경 안 씁니다. 그냥 논문만 쓸 수 있으면 되고, 프로젝트 따 돈만 끌고 올 수만 있으면 되는 것이죠.

 

 

하여간 주류 중의 주류인 UMVUE에 대해 더 이야기를 해보죠. 불편추정량 중에서 가장 분산이 적은 통계량을 찾는 과정에서 가장 중요한 정리가 Rao-Blackwell 정리입니다. 간단합니다.

 

 

 

 

[Rao-Blackwell 정리]

 

S는 충분통계량이고 U는 u에 대한 불편추정량이다. 그러면 S를 조건부로 하는 조건부 확률변수의 기대값 E[U|S]는 u에 대한 불편 추정량이고 분산은 U의 분산보다 더 작다. 즉

 

 

1) E[E[U|S]]=u

2) Var(E[U|S]) < Var(U)

 

그래서 어떤 불편추정량이 있으면 여기에 충분통계량을 조건부로 한 다음 기대값을 취하면 분산이 더 작은 불편추정량을 찾을 수가 있다는 것이죠. 아래 그림 참조. S(X)에서 연장된 점선은 S의 함수형태인 즉, h(S)의 모임을 말하는 것입니다.

 

 

 

 

 

여기에 S가 충분(sufficient)통계량뿐만 아니라 완전(complete)통계량이면 E[U|S]는 이때 불편추정량이고 불편추정량 중에서 가장 분산이 적은 UMVUE가 되는 것입니다. 완전통계량 개념은 좀 어려운데 유니크임을 보이는데 필요한 성질입니다. 정의는

 

 

E[h(S)]=0을 만족할 경우 함수 h는 h=0이 될 때 S를 완전통계량이라 합니다.

 

 

h(S)=T1(S)-T2(S)라 놓고 E[T1(S)-T2(S)]=0을 만족하면 위의 완전통계량의 정의에 의해 T1(S)-T2(S)=0, 즉 T1(S)=T2(S)가 되어 유니크하게 된다는 것이죠. 이런 성질 때문에 위 그림에서 E[U1|S]하고 E[U2|S]는 일치하게 됩니다. 하여간 이건 알 필요가 없고요. 개념상 중요한 것은 충분통계량입니다.

 

 

 

그래서 우리가 알아야 하는 것은 충분통계량이 뭔지, 그리고 충분하고 완전한 통계량이 뭔지, 일반적으로 어떻게 알 수 있는지 이런 문제에 부딪친다는 것이죠. 여기서 지수계열(exponential family)의 개념이 나옵니다. 여러분이 아는 대부분의 분포는 이 지수계열에 속하고, 정규분포가 아닌 이항분포, 포아송, 지수분포가 종속변수일 때 회귀분석, 즉 일반회귀분석(GLM), 의 이론적 기초가 됩니다. 또는 MLE에서도 이 지수계열은 아주 멋진 성질을 가지고 있습니다. 따라서 Dempster 논문에서도 지수계열의 EM 알고리즘에 대해 먼저 설명하고 있습니다.

 

 

 

 

조건부 기댓값의 이론

 

여기서 더 이야기하고 싶은 것은 조건부 확률변수 Y|X, 조건부 확률변수의 기대값 E[Y|X]입니다. 앞으로 2-3회에 걸쳐 조금 어려운 이야기가 나올 겁니다. 앞으로 확률론을 더 자세히 공부하고 싶으신 분이나 금융공학 이론 부분을 더 하고 싶으신 분은

 

 

 

Thomas Mikosch의 “Elementary Stochastic Calculus- with Finance in View"의 1.4 Conditional Exepection 부분을 열심히 읽으시기 바랍니다.

 

 

 

 

어떤 현상 Y가 있다고 해보죠. 이 현상은 하나의 값만 가지는 것이 아니고 여러 개의 값을 가질 수가 있습니다. 즉 확률현상이라는 것이죠. 사실 모든 게 다 확률현상입니다. 하여간 우리의 문제는 이 Y를 가능하면 하나의 숫자로 표현하고 싶다는 것이죠. 이럴 경우 우리는 대부분 Y의 분포의 중심 값을 취할 것입니다. 즉, Y를 대표하는 값을 E[Y]=u로 생각할 것이라는 것이죠. 그래서 실제 관찰된 Y 값과 이 u와의 차이는 기댓값 E[Y]=u로서 다 설명하지 못하는 변동이 된다는 것이죠.

 

즉 E[(Y-u)^2]=Var(Y)가 u로서는 다 설명하지 못하는 부분이라는 것이죠.

 

 

만약 Y에 대해서 도움이 될 수 있는 새로운 변수 X가 등장했다고 생각해보죠. 즉 우리는 X라는 정보를 통해 Y에 대해서 더 잘 알 수 있게 된 것입니다. 그럼 이런 경우 Y를 가장 잘 설명해 줄 수 있는, 잘 예측해 줄 수 있는 값은 무엇이 될까요?

 

 

예를 들어 Y가 성인의 키라고 하고 X가 성별이라 하면 이 경우 우리는 남자일 경우 성인 평균 키, 여자일 경우 성인 평균 키 라는 두 개의 값이 될 것입니다. 앞에서는 단순히 Y의 평균 키 하나의 값만 쓸 수 있었는데 이젠 성별이라는 새로운 정보가 들어 왔을 때는 E[Y|X=0, 남자], E[Y|X=1, 여자] 이 두 개의 값을 쓸 거라는 것이죠.

 

 

만약 X가 연령대라고 하죠, 20대=1, 30대=2, 40대=3, 등등.... 이럴 경우 이젠 Y를 가장 잘 설명해 줄 수 있는, 잘 예측해줄 수 있는 값은 E[Y|X=1], E[Y|X=2], E[Y|X=3], 등등이 될 수 있습니다.

 

 

 

만약 X가 1에서 100까지 값을 취한다면 E[Y|X]는 아래 그림 비슷하게 될 것입니다.

 

 

 

 

 

 

 

위 그림을 통해 E[Y|X]는 X의 어떤 함수라는 것을 알 수 있습니다.  X가 확률변수이기 때문에 X의 함수 h(X)도 확률변수이고 따라서 E[Y|X]도 확률변수입니다.

 

 

그럼 앞의 설명을 통해서 우리는 다음과 같은 것을 추측할 수 있습니다. 어떤 현상 Y가 있고, Y에 대해 설명해줄 수 있는, 또는 정보 X가 있습니다. 우리는 X의 정보를 통해 Y를 최대한 잘 표현하거나, 설명하거나, 예측하고 싶다는 것이죠. 수학적으로 이야기해서 X의 어떤 함수, h(X)를 통해 Y를 잘 표현, 설명, 예측하고 싶다는 것이죠. 그럼 X의 어떤 함수가 가장 잘 Y를 표현, 설명, 예측해 줄 수 있을까요?

 

 

 

이미 답을 예상했겠죠. Y를 가장 잘 설명, 표현, 예측하는 X의 함수, h(X)는 E[Y]X}입니다. 가장 대표적인 것이 회귀분석에서 h(X)=E[Y]X}=a+bX이죠.

 

 

 

이걸 일반적인 그림으로 보면 아래와 같습니다. (Mikosch 책에서)

 

 

 

 

 

 

 

 

 

확률변수 Y를 확률변수 X의 함수들 공간에 투사(projection)하면 확률변수 E[Y|X]가 된다는 이야기입니다. 그래서 피타고라스 정리가 성립됩니다.

 

 

 

 

 

이걸 평균이동하여 분산형태로 고치면 널리 알려진 공식

 

 

 

 

 

 

 

 이 나옵니다.

 

 

주의: 여기서

 

 

 

이고, 여기에 다시 X에 대해 기댓값을 취하면

 

 

 

 

 

 

가 됩니다. 조건부 기대값에 다시 기댓값을 취하면 원래 변수의 기댓값이 된다는 정리를 이용한 것입니다. 즉 위 식 전개는

 

 

E[T]=EE[T|S]

 

 

라는 정리를 이용한 것입니다. 그래서 E[Var(Y|X)]는 그림에서 잔차의 길이제곱이 됩니다. 정확하게 쓰면 너무 복잡해져 간단한 개념 전개만 했습니다.

 

 

이 이론적 버전을 데이터가 관찰된 이후의 표본버젼으로 고치면 유명한 분산분석 공식이 나옵니다.

 

 

 

총제곱합 = 집단간의 제곱합 + 집단내의 제곱합

 

총변동 = 설명변수X가 설명하는 Y의 변동

+설명변수 X가 여전히 설명 못하는 Y의 변동

 

 

여기서 Y가 정규분포를 하면 제곱합은 카이제곱 분포를 하고 분자 분모를 카이제곱으로 놓고 분자, 분모가 독립이면(즉, 수직이면) F 분포를 합니다. 이것이 분산분석이나 회귀분석에서 보는 F 통계량입니다.

 

 

F=WSS/BSS

 

 

아,,, 물론 각자의 자유값으로 나눠야 정확한 공식입니다. 개념상 그렇다는 것입니다.

 

 

하여간 여러분이 기억할 것은

 

1) S의 조건부 기댓값은 E[T|S]는 S의 함수 h(S)로 이것 역시 확률변수이다.

 

2) S의 조건부 기댓값에 S에 대해 다시 기댓값을 취하면 원 변수의 기댓값이 된다.

 

E[T]=EsE[T|S]

 

3) T에 대한 추가적인 정보 S가 들어왔을 때 T에 관해 가장 잘 설명하는 확률변수는 S에 대한 조건부 기댓값이다.

즉, E[T|S]가 T에 관해 가장 잘 표현, 설명, 예측하는 확률변수가 된다.

 

4) E[T|S]는 T를 S의 함수들의 공간에 투사한 것이다. 따라서 피타고라스 정리가 성립되고 이 피타고라스 정리가 분산분석 식이다.

 

 

 

 

다음에 몇가지 더 언급하고, 시그마 필드에 관해 조금 설명하겠습니다. 고급확률론이나 금융공학 이론책에서는 조건부 변수를 쓰지 않고 시그마(X)라든지 필드 F 등 시그마 필드라는 개념과 기호로 많이 씁니다. 그래서 간단히 설명하겠습니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

davison모델선택책.pdf
4.73MB

'통계이론 > 주류통계' 카테고리의 다른 글

조건부확룰4  (0) 2013.10.02
조건부확률3  (0) 2013.10.02
불변  (0) 2013.07.24
일치통계량와 불편추정량  (0) 2013.07.19
표준오차, 일치통계량  (0) 2013.07.14