통계이론/주류통계

가설검증과 MLE 질문과 sigma-field

학위논문통계 2014. 2. 22. 13:23

 

질문1: 방명록에서 질문한 분이 있어서요.

 

 

카이제곱검정이나 f검정에서 (양측검정) 유의확률은 관측치보다 더 크거나 작거나 하는 반증이 나올 확률로 알고 있습니다. 그런데 교재에서 보니 영가설보다 큰 관측치가 관측된 경우 유의 확률 P는 2P(X(카이제곱분포 확률변수)>x(관측치)) 더군요 갑자기 2배를 한 이유가 뭔가요?

 

정규분포와 달리 카이제곱분포가 대칭이 아니라서 그런것 같지만.. 아마 기준 이 있을거 같아서 질문 올립니다또한모비율 검정에 있어서 검정통계량을 표본 중에서 그 속성이 나타는 도수 X라고하면 이때 양측검정의 유의확률은 P(X>=x)또는 P(X<=x)더군요 여기는 또 왜 2배를 안해줬는지 알고 싶습니다.

 

 

 

답변:

오늘 제가 자세히 읽어 봤는데 카이제곱 검증에서 2배를 하는 경우는 제 기억으로는 없는 것 같은데요. 그래서 옛날 책을 한번 확인해봤는데 이런 경우는 찾을 수가 없네요. 제 추측으로는 가설이 양쪽 가설인데 검증 통계량은 카이제곱으로 한쪽 꼬리 검증이 되어 버리니까 아마 착각해서 2를 곱한 것이 아닐까 싶고요. 카이와 관련해서 2를 곱하는 경우는 LRT에서 -2log(우도비)가 점근적으로 카이제곱으로 간다는 유명한 정리가 있고요. 그 외에는 기억이 안납니다.

 

 

통상 우리가 검증통계량보고 카이제곱 검증, t 검증 이렇게 이야기를 하는데요. 이렇게 이야기해서는 정확한 질문 내용을 알 수가 없습니다. 어떤 문제에 어떤 가설 형태를 이야기를 해줘야 합니다.

 

 

예를 들어 집단간에 차이를 볼 때도 t 검증이고요, 회귀분석에서 회귀계수가 0인지 아닌지를 검증하는 것도 t 검증입니다. 따라서 어떤 문제인지를 정확하게 이야기를 해주셔야 하고요. 그리고 가설이 한쪽 가설인지, 양쪽 가설인지를 알아야 유의확률을 정확하게 이야기할 수 있습니다. 예를 들어 한쪽 가설이면 SPSS에서 나온 유의확률 값을 그냥 쓰면 안되고요 곱하기 1/2를 해야 합니다.

 

그래서 위 카이제곱 질문은 정확한 문제와 가설을 적어 댓글에 다시 질문해 주셨으면 좋겠습니다.

 

 

 

질문2:

 

MLE 구하는 과정자체는 알고 있는데요, 과연 저런 방법으로 추정하면 좋은 추정량이 나오는 지 궁금합니다. 적률법을 추정법으로 사용할 수 있는 근거가 대수의 법칙 때문이자나요. 또는 점근적 불편성 때문이자나요

이에 비해 <MLE가 좋은 추정법으로 불리는 근거가 뭐냐 이겁니다> 특히 왜 관측된 Xi에 대한 확률 f(xiㅣθ)들을 왜 곱해주냐 말입니다. 더해주면 안되나요???안된다면 왜 안되는걸까요?단순히 배제성이 없기 때문에요?전 아니라고 봐요.만약 그렇다면 애초에 가정을 깔때 배제성이 있는 f(Xi)라고 햇겠죠!!마치 애초에 Xi에 대한 확률들이 애초에 독립적이라고 가정을 깔아버리는 것처럼요..왜 곱해주는지 이해가 안갑니다.곱해주는 과정속에서 어찌하여 MLE가 적률법과 어깨를 나란히 할 수 잇을 정도로의 추정법이 되는지 이게 궁금합니다.

 

 

 

답변;

 

먼저 MLE가 좋은 추정량이라고 볼 수 있는 이유는 어디에서 제가 썼는데요. MLE는 BAN(best asymtotic normality) 성질을 가지고 있습니다. 이건 웬만한 수리통계학책에 다 있고요. 그러나 BAN이라는 이름을 노골적으로 쓰지 않았을 경우가 많을 겁니다. 추정량의 점근적 efficient 부분을 찾아보시면 됩니다. BAN이라는 이름을 노골적으로 쓴 책이 Mood, Graybill, Boes의 Introduction to the theory of Statistics입니다. 359p 에 있습니다. 증명은 되어 있지 않습니다. 어렵다는 이야기이겠죠. 굉장히 좋은 책입니다. 기초통계책과 수리통계 책의 고리 역할을 하는 책입니다. 주류통계학을 하려면 한번은 꼭 보시는 것이 좋습니다. Bickel & Doksum 책에도 있습니다. 139p에 있습니다. 여기는 rough하게 증명이 되어 있습니다. 기타 몇 가지 언급을 할게요.

 

 

1. 지금 공부하는 책이 어떤 책인지는 잘 모르겠지만 적률방식은 통계학에서 거의 쓰지 않습니다. 가장 초보적인 방법이라서요. 그리고 비모수적 기법입니다. 즉 분포가정이 필요없습니다. 이게 통계방법론에 언급이 되어 있는 부분은 구조방정식 분야입니다. 모형에 따른 이론적 공분산 행렬과 데이터에서 나온 표본의 공분산 행렬을 가능하면 일치시키려는 것이죠. 이것도 정규분포 가정을 하면 MLE로 쓰고요.

 

 

2. 배제성이 무슨 말인지는 모르겠고요. 아마 독립사건과 배반 사건 이야기를 하는 것 같은데요. MLE 구할 때 확률밀도함수를 왜 곱하기는 하느냐 하는 문제인데 이건 본질적으로 MLE와 관계가 없습니다. 데이터가 독립이라 가정했기 때문에 결합밀도함수를 구할 때 곱하기를 한 것입니다. 즉 MLE 문제가 아니라 결합밀도함수를 구하는 문제입니다.

 

데이터 x1과 x2가 독립이면

 

f(x1, x2)=f(x1)*f(x2) 가 되지요. 이건 x가 이산형일때는 당연하고요. 연속형일때가 문제인데 사실

 

f(x1)*f(x2)= f(x1)dx1*f(x2)dx2

             =x1근처 값을 가질 확률*x2 근처 값을 가질 확률을 의미합니다.

 

 

 

그래서 MLE에서 진짜 문제는 왜 결합밀도함수를 구해서 최대화를 하는가입니다. 한번 더 언급하면 이건 틀린 생각입니다. 베이지안 생각이 맞습니다. 그러나 주류통계학에서 이걸 받아 드리지 못하는 것입니다.

 

 

우리가 하는 것은 데이터를 관찰했을때 모수 u가 어떤 값을 가질가 하는 문제입니다. 즉

 

Pr(모수 u |데이타 D) 를 최대화 하는 u 값을 구해야 합니다. 그럼 이건

 

 

Pr(모수 u |데이타 D)

=Pr(데이타 D, 모수 u)/Pr(데이타 D)

=Pr(데이타 D|모수 u)* Pr(모수 u)/ Pr(데이타 D)

 

 

여기서 데이터가 관찰되었기 때문에 오로지 모수 u에 관한 함수이고 분모는 최대치를 이루는 u를 구하는데는 아무런 관계가 없습니다. 그래서

 

 

Pr(모수 u |데이타 D) =Pr(데이타 D|모수 u)* Pr(모수 u)

 

 

라고 할 수 있습니다. 그런데 뒤부분 Pr(모수 u)를 주류통계학에서 받아 드릴 수가 없다는 것이죠. 주류 통계학에서는 모수 u는 우리가 모르지만 확률적인 존재가 아니고 하나의 숫자라고 보는 것이죠. 그래서 모른 척하고, 아니면 모수 u에 대한 확률분포가 평평한 것으로 처리하여

 

 

Pr(모수 u |데이타 D) =Pr(데이타 D|모수 u)

 

 

이렇게 생각하는 것입니다. 즉 Pr(모수 u |데이타 D)를 최대화하는 문제를 Pr(데이타 D|모수 u)를 최대화하는 문제로 바꿔 버린 것입니다. Pr(데이타 D|모수 u)가 바로 결합밀도함수이죠. D=(x1, x2,...,xn)이죠.

 

 

3, 만약 사람의 키와 몸무게 같은 것을 처리할 경우 결합확률밀도함수를 어떻게 구하는가 하는 문제를 생각해보죠. 키는 X1, 몸무게는 X2. 서로 상관이 있죠. 9명의 사람을 대상으로 데이터를 관찰한다고 하죠. 그럼 정규분포를 가정하고 f(x1, x2 |u, 상관계수)라는 bivariate 정규분포를 이론적 분포로 가정할 수 있습니다. 그럼 결합밀도함수는 10개를 곱해

 

 

f(x11, x21)* f(x12, x22)* f(x13, x23)***f(x19, x29)

 

 

이렇게 되는 것이죠.

 

이렇게 여러 가지 변수를 한꺼번에 생각해서 분석하는 것이 다변량 분석입니다. 이건 고급통계로서 매우 중요합니다. 이런 방법을 통해 집단을 분류해 내고 분류된 집단을 통해 각 집단의 특성을 연구하는 것이죠. 어렿게 생각할 것 없습니다. 옛날 사람도 수학만 못했지 다 생각한 것입니다. 대표적인 것이 동양의 사상의학이죠. 사람들의 체격등 여러개의 변수를 통하여 비슷한 것끼리 묶어 4개의 집단(태양, 태음, 소음, 소양)을 나누죠, 그리고 이 구분된 4개의 집단의 체질을 연구한 것이죠. 물론 이게 제대로 잘 맞는지는 별개 문제이고요.

 

 

이렇게 집단을 구별하는 것은 매우 많이 나옵니다. 기업의 입장에서는 소비자 집단을 나눌 수 있습니다. 새것이 나오면 무조건 사는 사람, 다른 사람이 쓰는 것 보고 사는 사람. 기다렸다 가격이 떨어질 때 쓰는 사람 등 이렇게 구별할 수도 있고요. 이런 것을 통해 tacket 마케팅을 할 수 있습니다.

 

 

 

 

 

다음은 확률이론에 나오는 sigma-field에 대해 간단히 이야기를 해보죠.

 

 

1. 확률론이나 확률과정(시간에 따라서 현상에 변화하는 과정을 공부하는 분야)에서 조금 어려워지면 시그마 필드(field)라는 개념을 사용합니다.

 

 

원래 필드는 대수학에서 나오는 개념입니다. 흔히 우리가 아는 더하기, 곱하기 개념이 들어간 것을 공부하는 것입니다. 수학에서 집합(set)과 공간(space)이란 말은 조금 다르게 사용합니다. 집합은 여러분들이 중고등학교에서 다 배웠으니까 특별히 할 이야기는 없지만 좀 고급수학을 이해하려면 공간에 대해서는 알아야 합니다.

 

 

정확하게 정의한 것을 보지 못했지만 공간은 집합에서 다른 수학적 개념을 더 첨가시킨 집합니다. 집합은 단순히 원소들의 모임이지만 공간은 이 모임에 원소들간의 어떤 관계구조까지 집어넣은 것입니다. 그래서 실수집합에다 그 안의 원소들 사이의 화학작용인 +, x, 같은 연산자 개념까지 들어가면 이때는 대수학에서 다루는 공간입니다. 이 대수학에서 다루는 전형적인 공간이 필드, 링, 그룹 등이 있습니다. 또 그 안에 세부적인 여러 공간들이 있습니다.

 

 

이런 연산자와 연산법칙외에 다른 구조도 있습니다. 대표적인 것이 거리 구조입니다. 집한 안에 두 원소간에 거리를 정의한다는 것이죠. 우리가 음악을 생각할 때 수학적으로 보면 시간 t에 따라 올라갔다 내려갔다 하는 함수라고 볼 수 있죠. 만약 감청도구를 만든다고 생각해보죠. 좋은 감청도구는 어떤 걸을 의미할까요. 원래 소리와 감청되어 나온 소리간에 거리가 짧아야, 즉 원래 소리와 비슷해야 좋은 감청도구라고 할 수 있겠죠. 이 감청도구에서 나온 소리도 시간 t에 관한 함수라는 것이죠. 그럼 여기서 먼저 두 개의 소리간의 거리, 즉 t에 관한 두개의 함수간의 거리가 뭔지 정의가 되어야 하겠죠.

 

 

이 거리 구조는 나중에 metric이라는 행렬로 표시되는 경우가 있습니다. 시간 t가 들어가는 4차원 공간에서 우리가 생각하는 평평한 공간에서는 metric, 즉 행렬과 아인쉬타인이 만든 휘어진 공간의 metric, 즉 행렬은 다르다는 것이죠. 그래서 집합으로는 같아도 공간으로서는 metric 구조가 달라 다른 공간이 된다는 것입니다.

 

 

하여간 대수학에서 이 필드가 가장 복잡한 공간입니다. 실수 집합이 가장 대표적인 필드공간입니다. 즉 실수라고 하면 암묵적으로 필드를 가정하고 있다는 것이죠. 즉 +, x 연산자가 있고, 여러분이 아는 분배법칙, 결합법칙, 교환법칙(정확한 용어를 잘 모르겠네요) 등이 성립하는 집합입니다.

 

 

 

집합 안에 들어있는 원소는 꼭 숫자가 되어야 할 필요는 없다는 사실입니다. 생명체도 될 수 있고, 광물도 될 수 있고, 앞에서 이야기한 감청도구에서는 함수가 될 수 있고요, 또 어떤 추상적인 개념도 될 수 있고요. 단지 그 집합이 그 집합 아닌 것들과 구별만 되면 됩니다.

 

이런 단순한 집합 이론에는 상당한 문제점이 있습니다. 대표적인 것이 러셀의 역설이고요. 음, 진중권이가 아는 것 나오니까 잘난 척 한 적이 있죠. 하여간 뭐 좀 아는 것 나오면 촐랑대기는. 그냥 초보적인 내용입니다. 이것 말고 골치 아픈 점이 많습니다. 제가 이쪽 전공이 아니라 잘은 모르지만. 특히 무한대나 무한소 개념이 들어가면 우리가 생각하는 일반적인 상식과 많이 다른 현상을 볼 수 있습니다.

 

 

예를 들어, 양의 정수의 집합, 즉 홀수와 짝수 다 들어있는 집합 S1, 짝수만의 집합 S2를 생각해보죠. 느낌에 S1의 원소의 개수가 S2의 갯수보다 두 배 많잖아요. 그러나 이걸 정확하게 1:1 대응시킬 수 있다는 것이죠. n--->2n 이라는 함수를 만들면 왼쪽에 있는 어떤 n 값에 대응하는 짝수값 2n을 만들 수 있다는 것이죠.

 

 

길이도 마찬가지입니다. f(x)=2x라는 1:1 대응함수를 생각하면 x가 [0,1]의 집합에 속한다면 이 함수에 대응하는 정의역은 [0, 2]가 되죠. 즉 1:1 대응인데 길이는 두 배가 들어난다는 것이죠.

 

 

열린 집합을 교집합하면 이것 역시 열린집합이 됩니다. 예를 들면 (0, 3)과 (1, 4)를 교집합하면 다시 열린 집합 (1, 3) 이렇게 되어 다시 열린집합이 됩니다. 이렇게 어떤 작동을 해도 처음의 성질을 그대로 유지하는 것을 닫혔다고(closed) 합니다.

 

그러나 이것도 무한대로 작동하면 열린집합이라는 성질을 유지하지 못합니다. 예를 들어 (-1, 1), (-1/2, 1/2), (-1/3, 1/3),.... 이것들을 다 교집합하면 0이 나옵니다. 0은 열린집합이 아니고 폐집합이거든요. 따라서 무한대 작동까지 생각하면 열린집합은 교집합에 닫혀있지 않습니다.

 

 

 

 

이렇게 된다는 것이죠. 증명은 간단합니다. 지금까지 이야기한 게 어렵게 생각될지 모르지만 학부수학에서 배우는 실수해석(real analysis)에 앞부분에 나오는 초보 내용입니다. 공학에서는 실제 문제를 풀어 내는 것이 중요하지만 이론에서는 문제 풀이 밑에 깔린 구조적인 것을 연구한다는 것이죠.

 

 

그럼 시그마-fiedl는 무엇일까요. 일단 시그마 필드 집합의 원소 역시 집합입니다. 대표적인 것이 어떤 집합이 있을 때 그 집합의 부분집합을 모두 모은 집합이죠. 파워집합이라고 하나요. 여기서 앞에 나온 대수학처럼 몇 가지 성질을 만족시켜야 합니다. 즉 교집합이나 합집합, 여집합 역시 이 시그마-필드 집합 안에 들어가 있어야 합니다. 즉 교집합과 합집합, 여집합에 닫여 있어야 합니다. 또 공집합과 전체 집합 역시 이 시그마-필드안에 들어가 있어야 하고요.

 

 

확률에서 나오는 원 집합은 통상 표본공간 S입니다. 시그마-필드는 S의 부분집합의 집합으로써 교집합과 합집합에 닫혀 있고, 공집합과 전체집합 S도 들어 있어야 합니다. 예를 들어 동전 던지는 실헐을 생각해보죠.

 

 

S={ 앞면이 나온다. 뒷면이 나온다}={간단하게 앞면, 뒷면} 그럼 시그마-필드는

 

시그마 필드 F1={공집합, S, {앞면}, {뒷면}} 이렇게 되고요

 

주사위를 던지는 경우

 

S={1이 나옴, 2가 나옴, ..., 6이 나옴}

 

시그마 필드 F2={공집합, S, {1}, {2}, ,,,{6}, {1,2}, {1,3},...,{5,6}, {1,2,3,},.....}

 

 

 

그러나 실제 중요한 것은 어떤 확률변수 Y에 관련된 시그마-필드입니다. 확률변수 Y에 의해 생성되는 시그마-필드라는 말을 사용하는데 정의는 좀 어렵습니다. 확률변수 Y를 measurable 하게 하는 시그마-필드 이렇게 이야기 합니다. 어렵게 생각하지 말고 예를 들어보죠.

 

 

주사위를 던지는 경우 확률변수 X를 우리가 흔히 사용하는 위면에 나오는 숫자로 생각해보죠. 이럴 경우 X가 생성하는 시그마-필드는 위에 나오는 F2입니다.

 

그러나 확률변수 Y는 다르게 정의해 보죠, Y는 홀수가 나오면 0. 짝수가 나오면 1로 정의한다는 것이죠. 그럼 이 0과 1로 된 집합의 시그마 필드는 앞에서 동전던지기와 비슷하게 F3={공집합, {0}, {1}, {0,1}} 이렇게 된다는 것이죠. 이 F3를 가지고 원래 관찰된 현상으로 되돌아 간다는 것이죠. 그럼 F4는

 

F=4{공집합, {1, 3, 5가 나온다}, {2, 4, 6이 나온다}, {1, 2, ...., 6이 나온다}} 그래서 이 F4의 원소의 개수는 4개 밖에 안됩니다. 이게 확률변수 Y가 생성하는 시그마-필드입니다.

 

그럼 X가 생성하는 시그마=필드랑 Y가 생성하는 시그마-필드랑 어떻게 다를까요?

 

 

다음에 더 쓰죠.