통계이론/주류통계

베이지안, MSE, 일치, 불편, 불변

학위논문통계 2013. 7. 9. 12:23

 

1. 베이지안

 

데이터를 관찰해서 가정한 분포의 모수를 추정하려는 것은 현실에서 자주 하는 것입니다. 여러분도 중 고등학교때 시험 끝나고 많이 했을 것입니다. 시험 보고 나면 친구들에게 시험 어떻게 봤냐고 많이들 물어보죠. 그래서 친구들 이야기 듣고 자기가 시험을 어느 정도 봤는지 판단한다는 것이죠.

 

그런데 공부 못하는 노는 얘들이 자기 친구들이 시험 못받다고 해서 자기가 이번에는 반에서 상위권에 들어간다고 생각할까요? 공부만 하는 범생이의 경우 범생이 친구들이 자기보다 시험을 잘 봤다고 해서 자기가 반에서 하위권으로 떨어졌다고 생각할까요?

 

분명이 데이터만 가지고는 판단하지 않는다는 것이죠. 노는 얘들은 친구들이 거의 다 하위권이니까 하위권에서 이번엔 좀 잘 봤구나 이렇게 생각한다는 것이죠. 범생이 얘들은 친구가 다 상위권이니까 이번에 상위권에서 좀 떨어졌구나 생각한다는 것이죠.

 

그래서 단순하게 데이터만 가지고 판단하는 것은 심각한 문제가 생길 수 있습니다. 그래서 사전의 지식을 고려하는 베이지안이 원래는 맞는 것입니다. 그러나 통계 전공하는 사람은 전공하는 특정 분야가 없습니다. 특정 분야의 사전 지식이 있을 수가 없지요. 그래서 베이지안 생각을 잘 받아 드리지 못하고 있습니다.

 

사실 주류통계학 하는 사람들은 베이지안 논쟁에 대해 별로 신경쓰지 않고 관심도 없습니다. 베이지안 하는 사람만 열나게 공격하고 있는 것이죠. 이쪽에서는 논문만 쓸 수 있으면 베이지안이든 주류든 관계 없거든요.

 

 

 

 

 

2. MSE

 

지난번에 모수와 추정량을 가능하면 가깝게 하는 추정량을 찾으면 좋겠다는 생각을 했습니다. 즉

 

 

 

 

 

이걸 가깝게 하는 추정량 T(X)를 찾는 것이 목표입니다. 주류 중의 주류 쪽 생각입니다.

 

그러나 T(X)는 관찰한 값 X에 따라 이 거리는 다 달라집니다. 이래서는 안되겠다는 것이죠. 그래서 평균적인 거리 개념을 생각해 내었습니다. 그게 이겁니다.

 

 

 

 

 

 

 

 

입니다. 이걸 MSE(mean squared error)라고 합니다. 그런데 이 MSE는 두 부분으로 쪼개집니다.

 

 

 

 

 

 

주의: 첫째줄 맨 뒤에는 위에 제곱이 붙어 있습니다. 수식을 이미지로 전환하는데 에러가 나네요.

  

식 모양이 피타고라스 정리 비슷하지요. 이런 모양은 매우 자주 나옵니다. 분산분석에서도 봤고요. 뒤 부분에 있는

 

 

 

 

 

를 흔히 bias, 편이라고 합니다. 이게 0 이면 이땐 T(X)를 불편 추정량(unbiased estimator)라고 합니다.

 

 

주의: MSE와 뒤부분에 있는 bias 제곱의 식 모양이 다릅니다.

 

 

불행하게도 괜찮은 추정량의 경우 T(X)의 분산이 적으면 bias가 커지고, bias가 적으면 T(X)의 분산이 커지는 상충(trade-off)의 관계가 있습니다. 그 대표적인 것이 정규분포의 분산인 sigma^2의 추정량입니다.

 

 

 

 

 

 

 

이 있고

 

 

 

 

 

가 있습니다. 위쪽은 Fisher가 주장한 MLE 추정량이고, 아래쪽은 주류 중의 주류가 주장하는 UMVU 추정량입니다. 아래쪽은 sigma^2에 대한 불편추정량인데 반해 위쪽은 불편추졍량이 아닙니다. 반면에 위쪽은 아래쪽 보다 분모가 1 크니까 당연히 분산은 위쪽이 작습니다. 통계프로그램에서는 특별하게 지정하지 않는 한 아래 불편추정량을 기본으로 뽑아 줍니다.

 

 

 

 

 

3. 일치성, 불편성, 불변성

 

 

그래서 생각해보면 통계 주류 쪽에서는 불편추정량 개념을 매우 중시한다고 생각할 수 있겠죠. 이렇게 어떤 모수에 대해 추정량이 어떤 성격을 가지고 있으면 좋겠다는 생각을 할 수 있습니다. 그래서 나온 성격들이 몇 개 있습니다. 첫째가 일치성(consistency), 둘째는 불편성(unbiased), 셋째가 불변성(invariance) 등입니다. 셋째는 아마 들은 분이 많지 않을 겁니다. 학부에서는 MLE가 불변성 성질이 있다는 이야기 정도..

 

 

 

다음에 조금 더 자세히 쓰죠. TSP와 관련된 MCMC 글 먼저 쓰고 쓰겠습니다.

 

 

 

 

 

'통계이론 > 주류통계' 카테고리의 다른 글

Rao-Balckewll정리, 조건부 기대값  (0) 2013.08.05
불변  (0) 2013.07.24
일치통계량와 불편추정량  (0) 2013.07.19
표준오차, 일치통계량  (0) 2013.07.14
들어가가. 추론, 통계량, 추정량, 모형  (0) 2013.07.07