기타통계이야기/행렬,고유값(eignevalue),다변량통계

partition, function, equivalence relation, sufficient, 행렬

학위논문통계 2013. 4. 24. 07:09

 

 

 

우리가 생각하는 어떤 집합 S가 있을 때 이 집합이 자연스럽게 분할(partition)되는 경우가 있습니다.

 

그 대표적인 것이 그 집합 S에 정의되는 함수, 또는 equivalence relation(이후 ER이라고 하죠)이 있을 경우입니다. 이 경우 집한 S가 함수 T에 의해 분할된다. 또는 ER에 의해 분할된다고 합니다.

 

집합의 경우 한번 보죠, 집합 S가 2차원 공간 즉 (X1, X2)로 되어 있다고 하죠.

그럼 함수 T=T(X1, X2)=X1+X2로 하죠

 

 

 

그럼 T(X1,X2)=K로 놓을 경우 K의 값에 따라 이차원 공간이 분할 됩니다.

 

또는 T(X1, X2)=X1^2+X2^2=r로 정의하면 원의 길이에 의해 2차 공간이 분할됩니다.

 

 

 

 

 

마찬가지로 ER에 의해서도 집합이 분할됩니다.

 

예를 들어 국가의 집합 S={소련, 중국, 북한, 남한. 일본, 미국)을 생각해보죠.

 

이때 ER을 동맹관계로 정의하죠. 그럼 이 정의관계에 의해 집합 S는 다음과 같이 분할됩니다.

 

S={ (소련, 중국, 북한), (남한, 일본, 미국) }

 

흔히 이야기하는 삼각구도입니다. 마찬가지로 대한민국 성인의 집합도 정치적 성향, 또는 정치적 신념, 이념에 의해서도 분할이 됩니다. 따라서 트위터 이용자도 이에 의해 분할이 되겠죠.

 

위의 분석에서도 받듯이 전형적으로 강대국이나 또는 그 사회의 기득권 들이 이 분할 정책을 선호한다는 것이죠. 즉 divide and rule을 한다는 것이죠.

 

이와 같이 ER에 의해 분할된 부분집합을 흔히 class라고 합니다. 왜 이런 것을 하나면은 이런 class에 있는 속한 집단이 같은 성질을 가지지 않을까 하는 그런 것을 연구한다는 것이죠.

 

 

 

n*n 행렬의 집합도 이런 ER이 존재합니다. 집합 S는 모든 n*n 행렬의 모임을 생각해보죠.

 

그럼 두 행렬 A와 B과 다음과 같은 관계가 있다고 하면

 

 

 

 

즉 위의 경우를 만족하는 P라는 행렬이 존재하면 이 두 행렬 A와 B는 서로 similar 하다고 합니다.

 

그래서 이 similar라는 ER에 의해 행렬의 집합이 분할되고 이 분할된 class에서는 모두 고유값이 같습니다. 즉 고유값은 이 class 성질입니다. 하여간 통계학에서 사용되는 것은

 

 

 

 

 

 

이 P 행렬을 orthogonal 또는 orthonomal 행렬이라고 하고

 

 

 

 

 

 

이라는 성질을 만족합니다. D 행렬은 대각행렬이고 이 안에 고유값이 들어가고요, P행렬의 세로 줄에는 고유벡터가 들어갑니다. 이걸 Spetral Decomposition 정리하고 합니다. 그림을 한번 보죠. A에서 출발해서 좀 쉬운 공간 D로 가서 다시 돌아오면 원래 행렬 A로 간다는 것이죠.

 

 

 

 

 

 

 

 

 

이럴 경우 좋은 성질이 있습니다.

 

 

 

 

 

이렇게 되는 것이죠. D는 대각행렬이고 안에는 고유값이 들어있는데 이건 계산하기 쉽죠. 또는 복잡한 2차 방정식도 이 정리를 이용하면 쉽게 표현이 됩니다.

 

 

 

 

 

문제:

 

1. 트위터 이용자 집합 S를 Markov chain의 state로 해석하고 어떤 정치적 메시지가 전달될 확률을 전이확률로 생각하면 어떻게 될까요?

 

이용자 A와 B는 서로 정치적 메시지를 주고 받으면 서로 communicate 한다고 합니다. 이 관계는 ER입니다. 따라서 이 ER에 의해 트위터 이용자가 분할이 됩니다. 또 이 분할된 class에서는 한번 빠지면 다시 나오기 힘듭니다. 즉 똥통에 빠진 것이죠. 이 class의 적용되는 공통적 성격이 뭘까요?

 

ER이 되기 위해서는 세가지 조건을 만족해야 합니다. 이건 집합책이나 해석학 책 또는 쉬운 위상수학책을 보시면 앞 부분에 대부분 나옵니다.

 

 

 

 

2. 정규분포의 평균 u를 추정하기 위해 두 개의 데이터 X1, X2를 조사한 후 통계량

 

T(X1, X2)=X1+X2

 

를 사용하였습니다.

 

이때 T(X1, X2)를 충분통계량(Sufficient Statistics)라고 합니다. 이 T에 의해 데이터 공간 집한 D={(X1, X2)}는 분할됩니다.

 

이 분할 된 class에서는 모수 u에 관해서는 같은 정보를 가지게 됩니다. 예를 들어 T=0이 나올 경우

 

 

 

D={(X1, X2)}={ (-1, 1), (-2, 2), (-0.7, 0.7), .....}

 

 

이 경우 모수 u에 대해서는 우리가 같은 생각을 가지게 된다는 것이죠. 그럼 이 충분통계량의 분포의 성격은 뭘까요?

 

 

 

3. X가 균등분포 U[0, a]에서 나왔다고 하죠. 그래서 X1부터 X10000까지 만개의 데이터를 관찰했다고 하죠. 이 경우 모수 a의 충분통계량은 뭘 까요? 댐이나 지진을 대비해 건물을 지을 경우 강우량 데이터, 또는 지진강도 데이터 X1부터 X10000 등 만개의 데이터가 있을 경우 가장 중요한 값이 뭘까요?