통계이론/주류통계

들어가가. 추론, 통계량, 추정량, 모형

학위논문통계 2013. 7. 7. 00:13

 

 

 

주류 통계학 이론을 조금 공부해 보기로 하죠.

 

 

 

A. 들어가면서

 

이 글을 읽는 분들은 통계학 이론을 조금 아는 분으로, 또는 통계학을 좀 더 공부하겠다는 분들로 예상하고 쓰겠습니다. 여기서는 모수통계만하지 비모수통계는 하지 않겠습니다. 모수통계는 가정한 분포의 모수 개수가 유한개일 경우 모수통계라고 합니다. 모수통계의 예는로서 정규분포를 가정한 모형은 모수가 (u, 시그마)로서 모수의 개수가 단 2개뿐이죠. 비모수 통계의 예로는 대칭분포를 가정하는 경우입니다. 즉 분포모양이 특정 값을 중심으로 좌우대칭이고 전체를 적분하면 1이 되는 모든 함수모양을 고려한다는 것이죠.

 

앞으로 확률분포라 하면 확률밀도함수(pdf, 또는 pmf, probability density function 또는 probability mass function)는 의미하고 일반적인 관행에 따라 f(x), g(x), h(x) 등으로 표시하겠습니다. 누적확률분포(cdf)는 F(x)는 특별한 경우가 아니면 언급하지 않겠습니다. 누적확률분포는 F(x), G(x), H(x) 등 대문자로 표시하겠습니다. 그리고 확률분포도 모수가 들어 있는 경우는 베이지 통계를 고려해 f(x|u)로 표시하겠습니다. 즉 f(x|u)는 주류통계학 관례에 따르면 f(x;u)가 됩니다.

 

이산형과 연속형 변수를 특별히 구별하지 않겠습니다. 수식 전개시 자연히 summation이나 적분형태로 나오기는 하지만 이론적으로 특별히 구별할 이유는 없습니다. 메저 이론을 아시는 분은 이산형은 밑에 깔린 메저가 counting measure하고 생각하시면 됩니다.

 

확률변수는 X, Y, Z 등 대문자로 쓰겠습니다. 그리고 실제로 관찰된 값은 소문자 x, y, z로 쓰고요. 표본 평균은 너무 자주 나오니까 X+로 표시하겠습니다. 모수는 u로 표시하고요, u의 대한 추정량은 u^으로 표시하겠습니다.

 

 

확률변수 X는 일반적인 의미입니다. 표본 수가 n인 경우 X=(X1, X2, ,...., Xn)를 의미합니다. 시계열인 경우 n은 t로 표시하고요. 하여간 일반적인 하나의 확률변수로 X로 표시하고 랜덤샘플인 경우도 X로 표시하겠습니다. 물론 당분간 제가 조금 귀찮아도 일일이 표시하겠습니다.

 

만약 우리가 관찰하는 변수가 두 가지 이상 현상인 다변량의 경우 , 즉 X=(키, 몸무게, 비만도) 이럴 경우도 그냥 X로 표시하겠습니다. 따라서 문맥을 통해 이해하시면 됩니다. 즉 다변량의 경우 표본 수가 n이면 X=((X11, X12, X13), (X21, X22, X23),....,(Xn1, Xn2, Xn3))이런 식으로 이해하시면 됩니다. 통상 n는 표본 수 , k는 다변량에서 현상, 즉 확률변수의 수, 또는 회귀분석의 경우 독립변수의 개수로 이해하시면 됩니다.

 

 

 

 

 

B. 추론

 

통계이론이라 하면 기본적으로 추론(inference) 이론입니다. 그 중에서도 추정(estimation) 부분, 그 중에서도 점추정(point estimation)만 다루겠습니다. 확률분포나 가설 검증은 필요한 경우, 또는 사람들이 흔히 오해하고 있는 부분만 약간 언급하겠습니다.

 

 

 

우선 사람들이 많이 궁금해하는 여론조사시 표본 수에 대해 간단히 이야기하겠습니다. 그리고 더 이상 언급하지 않겠습니다. 흔히 모집단 전체 사람 수가 몇 명인데 천명 정도 뽑은 여론 조사를 믿을 수 있겠는가 하는 이야기들을 많이 합니다. 누구도 딱 잘라서 이야기 못합니다. 통계학은 기본적으로 답이 없는 학문입니다. 솔직히 답이 있는 학문은 수학밖에 없지요. 특히 통계학은 자신이 가지고 있는 사전지식에 따라 정답이 다 달라집니다. 정답을 요구하는 통계학 교수가 있으면 앞으로 갈길이 먼 교수입니다.

 

 

햐여간 표본추출비율에 관한 공식은 있습니다. 기초통계학 책 대부분에 나올 겁니다. 제가 본 것은 서울대 통계학과에서 나온 ‘현대통계학’이라는 기초 통계학책입니다. 깔끔하게 정리되어 있어 읽기 편합니다.

 

우리의 관심은 표본지지율의 분산입니다. 일반인이 의심하는 것은 1000명 조사하면 표본지지율의 분산이 너무 커서 믿기 힘들다는 이야기죠. 단순랜덤표집의 경우 표본지지율 분산의 공식은 다음과 같습니다.

 

 

 

 

 

 

여기서 f는 표본 추출율입니다. 투표자가 2천만이고 설문대상자가 1000명이면 f=1/20000, 1분의 2만입니다. (1-f)는 19999/20000이 되겠지요. 2000명 뽑으면 f=1/10000이 되고 (1-f)는 99999/10000이 되겠고요. 둘 다 거의 1입니다. 생각보다 영향이 별로 없습니다.

 

 

그래서 위 식의 왼쪽에서 앞부분인 (시그마 제곱/n)이 중요합니다. 앞부분은 통상 통계학 책에서 보는 표본평균의 분산 공식입니다. 통계학에서는 무한집단을 가정한다고 보면 됩니다. 그래서 n이 일정 정도 커지면 표본 추출율은 상대적으로 의미가 없습니다. 여기서 시그마 제곱은 베르누이 시행에서 분산입니다.

 

 

표본 수 n을 얼마로 하는게 좋은가는 정답이 없습니다. 시간과 돈, 그리고 조사의 중요성, 그리고 선거의 경우 후보자간에 지지도가 얼마나 치열하지 이런 것이 고려되어야 합니다. 두 후보의 지지율이 비슷하다고 추측되면 n을 매우 크게 해야 하고, 두 후보의 격차가 많이 나면 n을 크게 할 이유가 없습니다.

 

 

 

 

하여간 우리나라 여론조사의 경우 이런 문제보다 다른 문제들이 더 크겠죠. 집전화와 무선전화, 불응답자, 그리고 선거날 투표 참가자 문제 등 다른 문제가 많겠죠. 미국은 대선의 경우 직접선거가 아니니 이런 문제는 없겠죠.

 

 

 

이런 문제를 빼고 일반적으로 생기는 문제는 제대로 된 랜덤추출이 가능한가 하는 문제입니다. 이게 잘 안된다는 것이죠. 그래서 사람들이 많이 하는게 층화추출입니다. 기본적으로 다른 성향을 갖는 집단의 경우 그 집단의 비율만큼 표본 수를 지정한다는 것이죠. 남녀에 따라 정당지지율이 별 차이가 없으면 남녀 비율을 지정할 필요가 없지요. 그러나 연령대, 지역같이 정당지지 성향이 상당히 다른 경우, 연령별, 지역별로 층화추출을 해야 합니다.

 

이 밖에 많이 사용되는 것이 군집추출입니다. 특정 아파트 단지는 사회경제적으로 동일한 집단입니다. 이 경우 아파트 단지를 돌아다니면서 랜던 추출을 하는 것이 아니라 첫 단계로 아파트 단지 안에서 2-3개 동을 임의로 먼저 뽑고 여기서 뽑힌 동만 가지고 2단계에서 랜덤으로 추출한다는 것이죠. 그러면 시간과 비용을 많이 줄일 수 있습니다.

 

표본추출이론 자세히 알려면 Yamane의 “Elementary Sampling Theory" 책을 참조하시고요.

 

그래서 간단히 표본추출에 관해서는 이야기 했고요. 확률분포와 가설 검증은 나중에 시간 날 때 잠깐 이야기 하겠습니다.

 

 

 

 

 

C. 통계량, 추정량

 

앞에서 통계학 이론은 추론 이론이라고 했습니다. 그리고 추론 이론은 추정과 가설검증으로 나눠지고, 여기서 추정은 또 점 추정과 신뢰구간 추정으로 나눠집니다.

 

점추정은 간단히 이야기해서 우리가 얻은 데이터 X=(X1, X2, ..., Xn)을 가지고 모수 u를 꼭집어 이야기 하는 것을 말합니다. 반면에 신뢰구간 추정은 모수 u가 어떤 구간안에 있다고 이야기하는 것입니다.

 

점추정:  =어떤 함수(X,, X2, ..., Xn)

 

신뢰구간 추정: 어떤 함수1(X,, X2, ..., Xn) <     < 어떤 함수2(X,, X2, ..., Xn)

 

 

자세한 이야기는 조금식 더 하기로 하고요, 먼저 몇 가지 용어에 대해 알아보겠습니다.

 

 

 

1) 통계량(Statistics): 관찰된 확률변수 X1, X2, ..., Xn의 함수, 확률변수의 함수이기 때문에 통계량도 확률변수입니다. 즉, 분포를 가진다는 이야기입니다. 모수 u가 포함되면 안됩니다. 가끔 포함되는 경우도 있습니다.  이때는 u를 특정한 값으로 생각하면 이 경우는 오로지 확률변수 X의 함수로만 되기 때문입니다. 모수를 포함하지 않는 이유는 다음의 추정량(estimator) 때문입니다.

 

 

 

2) 추정량(Estimator): 특정 모수 u에 관해서 이야기 할 경우는 통계량이 추정량이 됩니다. 추정치(estimate)는 확률변수가 아니고 하나의 값입니다. 추정(estimation)는 추정하는 행위 뭐 이런 의미의 추상명사이겠죠.

 

예를 들어 학생들 키의 평균을 알고 싶어 세 명의 학생의 키를 쟀습니다. 실제로 나온 값은 (X1=170, X2=165, X3=175)라고 하죠. 이때 표본평균 (X1+X2+X3)/3은 넓게 이야기 해 통계량이고 학생들 키 평균 u에 대한 추정량입니다. sigma^2에 대한 추정량은 아니겠지요. 그리고 실제 관찰한 값을 대입하고 나온 평균값 (170+165+175)/3 은 추정치입니다.

 

앞에서 본바와 같이 “량”이라는 말은 확률변수의 의미를 가지고 있습니다. 일부 사회과학에서 분산분석(ANOVA)를 일원변량분석, 이원변량분석 이런 말을 사용하는데 좋은 관행이 아닙니다. 특별한 이유가 없으면 말 그대로 해석해서 분산분석이라고 하는 것이 좋습니다. 그리고 이것도 일요인 분산분석, 이요인 분산분석 이런 말이 좋을 것 같고요.

 

 

3) 임의 표본(Random Sample): 흔히 random sample of size n 이라고 합니다. 사회과학의 경우 설문지 n 명을 대상으로 조사했다는 이야기입니다. 즉 확률변수 (X1, X2, ..., Xn)이 같은 분포를 가지고 독립적으로 뽑혔다면 이때 random sample 이라고 하고 흔히들 i.i.d(identical and independently distributed)라고 표시를 많이 합니다.

 

여기서 잠깐 언급할 사항은

 

 

 

1.

흔히 우리가 키의 평균 같은 모수 u에 대해 이야기 할 때 표본평균 (X1, X2, ..., Xn)/n을 사용하고 분포의 퍼짐을 나타내는 분산 sigma^2은 표본 분산

 

 

을 사용하는 것을 당연하게 여깁니다. 네, 그럴 수 있습니다. 왜냐하면 이게 모수의 표본버젼이기 때문입니다. 즉

 

 

 

 

 

 

 

 

 

 

이렇게 표본 버전을 사용하여 추정하는 방법을 적률방식(moment method)라고 합니다. 직관적이기 때문에 통계 이론을 전공하지 않은 사람들에게 잘 받아들여지는 것이죠. 가장 초보적인 방법이죠.

 

 

 

 

2.

이 적률방식의 아이디어가 구조방정식 모형에서 쓰입니다. 물론 정규분포를 가정하여 MLE를 사용할 수도 있지만 표본에서 나온 표본 공분산행렬 또는 표본 상관계수 행력와 본인이 만든 모형에서 도출된 공분산행렬이나 상관계수 행렬을 가능하면 일치시키려는 것이죠. 일치되는 정도, 불일치 되는 정도가 구조방정식 분석에서 나오는 적합도 지수입니다.

 

 

 

3.

임의 표본에서 왜 독립적을 가정하는가 하면 독립적이면 문제가 매우 쉬워집니다. 즉 임의 표본 X의 확률분포는 각각의 확률변수 Xi의 확률분포의 곱으로 표시됩니다(왜 이렇게 되는지는 독립의 경우 확률의 공식을 생각하시면 됩니다. 즉 주사위를 던질 때 처음에 1이 나오고 두 번째 3이 나올 확률을 구할 때 곱하기를 하죠). 즉

 

 

 

 

 

 

이렇게 되고 여기에 log를 취하면

 

 

 

 

 

 

 

 

가 되어 미분이 쉬어집니다. 정보이론쪽의 용어를 빌려쓰면 데이터 Xi가 가지는 정보는 전부 똑 같다는 이야기가 될 수 있습니다. 전체 데이터가 주는 전체 정보의 양은 각 데이터 Xi가 가지는 개별 정보의 합으로 표시되어야 합니다. 그래서 그냥 확률분포 f(x)보다 log(f(x))가 더 의미가 있다고 봅니다.

 

 

 

4.

반면에 동일한 분포를 가진다는 정의는 현실에서는 많이 무너집니다. 동일한 분표를 가진다는 것은 모수통계에서는 모수의 값들이 X1, ..., Xn에 걸쳐 전부 같다는 것입니다. 그러나 현실적인 문제에 가서는 이런 가정이 많이 무너진다는 것이죠. 예를 들어 회귀분석에서 종속변수 Yi의 분포의 평균 u는 독립변수 X의 값에 영향을 받습니다(선형 관계죠). 또 지난번 대선에서 문재인이가 박근혜를 추월했다고 떠든 적이 있죠. 즉 구조적 변화가 일어났다는 것이죠. 이런 경우도 지지율 p가 바꿨다고 본 것이죠. 또는 경제분석에서 불황에서 상승국면으로 바꿨다 이런 말들 많이 하죠. 즉 경제상황에서 구조적인 변화가 일어났다는 것이죠. 이게 왜 중요하냐면 여기에 따라 경제정책이 바뀐다는 것이죠. 그래서 이런 구조적인 변화를 추정해내는 작업이 중요합니다. 최근 미국에서 돈 줄을 쥔다고 해서 한국 증시도 한바탕했죠. 즉 미국 경기가 불황에서 탈출했다고 본 것이죠.

 

 

 

 

5.

그래도 통계량이랑 추정량 이런 말들이 잘 안 들어오죠. 구체적인 예를 들어 보겠습니다. 추정량 T(X)는 다음과 같이 정의된다고 하죠. 표본 수는 3으로 하겠습니다. 우리는 학생들의 평균 키 u에 대해 관심을 가지고 있습니다. 여기서 X(k)는 순위 통계량(oder statitstics)fki고 하는데 표본 값 중에 k번째 작은 값을 말합니다. 즉 X(1)은 표본 중 가장 작은 값이고, X(n)은 가장 큰 값입니다. 순위 통계량은 괄호를 치는 것이 일반적인 관례입니다.

 

 

추정량

T(X)

(X1, X2, X3)의 실제값

설명

(170, 165, 175)

(180, 175, 170)

상수 k T(x)=172.2

172.2

172.2

표본값이 뭔가 나오더라도 모수가 상수 k라고 우긴다.

T(x)=X(1)

165

170

표본 값 중 가장 작은 값을 모수라고 추측한다.

T(x)=X(3)

175

180

표본 갑 중 가장 큰 값을 모수라고 추측한다.

T(x)=(X1+X2+X3)/3

170

175

모수가 표본 값의 평균이라 추측한다.

 

 

 

 

6.

다음 글에서 모수에 대한 추정량이 일반적으로 가지고 있으면 좋겠다는 성질에 대해 이야기 하겠습니다.

 

 

 

 

 

D.

 

먼저 딱딱해진 머리를 조금 부드럽게 할 필요가 있겠습니다.

 

모형은 분석에서 우리가 고려하고 있는 모든 확률분포의 모임입니다. 모수통계학에서는 이 확률분포의 모임을 모수의 집합으로 생각하고 있고요. 따라서 모형을 모수공간 H라고 생각하셔도 됩니다.

 

예를 들어보죠. 지난 대선시 후보자 지지율을 살펴보죠. p1=박근혜 지지율, p2=문재인 지지율, p3=기타 후보 지지율입니다. 당연히 p1+p2+p3=1 이 되겠죠. 여기서 우리는 모르지만 진짜 지지율 p=(p1, p2, p3)가 있을 겁니다. 이걸 알기 위해서, 즉, 추측하기 위해서 설문조사를 실시하여 r=(r1, r2, r3)를 구한다는 것이죠. 그래서 이 r값 갖고 진짜 지지율 p가 어떻다고 이러쿵 저러쿵 이야기한다는 것이죠. 진짜 지지율 p를 p*라 표시하죠. 즉 p*=(p1*, p2*, p3*)입니다. 그리고 누구도 이 값을 알지 못하죠. 그림을 그리면 아래와 같습니다,

 

 

 

 

 

 

 

 

여기서 표본 비율 r은 수학적으로 평균입니다. 박근혜 지지율 p1에 대한 추정량(estimator)는

 

r1=(X1+X2+...,Xn)/n

 

이 됩니다. 여기서 n명을 설문조사했고요, Xi는 i번째 설문응답자가 박근혜를 지지하면 1, 다른 후보를 지지하면 0이 됩니다.

 

그래도 위 그림이 잘 이해가 안됩니까? 그럼 아래 그림을 보시죠. 우리가 생각하는 모수 공간은 사실상 기하학적인 공간이 됩니다. p1, p2, p3 삼차원 공간에서 삐딱하게 서 있는 평면이 된다는 것이죠. 여기서 p를 루트 씌워 변수치환해보죠. q라고 하죠. 즉 q=루트(p)입니다. 그러면

 

 

 

 

 

 

을 만족시킵니다. 그럼 q를 모수라 생각하면 이젠 모수공간이 3차원 공간에서 평면의 모양이 아닌 구의 모양을 하게 됩니다. 오른쪽 그림입니다. 그림을 못그려서 죄송하고요.

 

 

 

 

 

 

 

 

 

그림 원래 모형 그림으로 돌아가서요. 일반적인 모수 u와 이 u에 대한 추정량 T(X)를 해보죠. 여러분은 u를 정규분포의 평균 u 이나 분산인 sigma^2이라고 생각하셔도 됩니다. 그럼 우리가 좋은 추정량이라는 것은 당연히 원래 모수 u와 데이터(설문조사)에서 나온 추정량 T(x)하고 거리가 가까운 것이 가장 좋은 것이라 생각한다는 것이죠. 즉,

 

거리(u, 추정량 T(X)) 가 가장 짧은 추정량 T(x)을 구해야 되겠다는 것이죠. 그래서 상식적으로 우리가 생각하는 유클리디안 거리를 생각하면 즉

 

 

 

 

 

'

가 가장 짧으면 좋겠다는 생각을 하게 된다는 것이죠.

 

 

 

다음에 더 쓰죠.

 

 

'통계이론 > 주류통계' 카테고리의 다른 글

Rao-Balckewll정리, 조건부 기대값  (0) 2013.08.05
불변  (0) 2013.07.24
일치통계량와 불편추정량  (0) 2013.07.19
표준오차, 일치통계량  (0) 2013.07.14
베이지안, MSE, 일치, 불편, 불변   (0) 2013.07.09