기타통계이야기/행렬,고유값(eignevalue),다변량통계

다변량 정규분포에 적용

학위논문통계 2013. 5. 6. 02:52

 

 

행렬 이야기를 계속 해보죠. 다변량에서 많이 나오는 다변량 정규분포식을 한번 보죠.

 

 

 

앞의 K는 지저분한 것으로 신경 쓸 것이 없고요. 그리고

 

(x-u)'=((x1-u1), (x2-u2), (x3-u3), ..., (xk-uk))입니다.

 

평균을 원점으로 이동하면 지수 위 부분은 결국

 

 

 

이 됩니다. 이걸 Spectral Decomposition 정리인

 

A=P'DP

 

를 사용하여 변형해보죠. 먼저 공분산 행렬인 시그마의 고유값이 람다1, 람다2, .. 람다k라고 해보죠. 그럼 다변량 정규분포의 위 부분은 다음과 같이 됩니다.

 

 

 

 

 

 

 

 

두 번째 식을 보면 새로운 변수 y=Px는 대각행렬 D를 공분산 행렬을 가진 분포가 된다는 것을 알 수 있습니다.

 

즉 자코비안을 신경 끄면 새로운 확률 변수 y1, y2, ..., yk는

 

 

 

 

 

 

이렇게 되어 D를 공분산 행렬로 가진 다변량 정규분포가 된다는 것이죠. 그리고 대각 행렬 D는

 

 

   

즉 확률변수 Y 들은 서로 독립적인 정규분포이고 분산은 원래 변수 X들의 고유값을 분산 값으로 가지고 있다는 것이죠.

 

그리고 세 번째 식을 보면 저게 흔히 보는 평평하게 누워 있는 타원, 또는 타원체의 식입니다. 즉 Y의 분포 f(y)를 중간에서 싹뚝 잘라 단면을 보면 타원이나 타원체 모양이 된다는 것이죠.

 

 

현실에서 변수는 아래 그림 비슷하게 될 겁니다. 지난번 신뢰도와 타당도 예에서 보듯이요.

 

 

 

 

아래 그림은 S-plus 매뉴얼에 나오는 실제 예입니다. biplot이라는 것을 사용해서 그린 것입니다.

 

 

 

 

위 그림에서 주성분 1과 주성분 2를 해석할 수 있겠습니까? 원래 다음 작업은 두 개의 주성분으로 25명의 학생들을 군집화해야 하는데 잘 안되겠죠.

 

 

처음 그림으로 돌아가서 수읽기, 세기, 더하기, 단어이해, 문장이해 이렇게 5개 변수만 있다면 위 식의 세 번째에서 두 번째 까지, 즉, y1과 y2만 우리가 고려하면 되고 그 뒤부분은 짤립니다. 즉 주성분이나 요인이 2개만 있으면 된다는 것이죠. 그러나 5개 변수외에 위 그림에서처럼 그림 그리기하는 애매모호한 변수가 하나 더 추가되어 있다면 이제 y1과 y2만 가지고는 안되고 세 번째 주성분이나 요인까지 고려해야 한다는 것이죠.

 

그럼 y1는 어떻게 표현될까요.

이건

 

Y1=a1*X1+a2*X2+a3*X3+...+ak*Xk=<람다1의 고유벡터, x>

 

와 같이 표현됩니다. 아마 그렇겁니다.

 

제가 행렬은 학부 3학년, 다변량은 학부4학년에 배우고 더 이상 공부를 하지 않았습니다. 그래서 기억에 긴가민가 합니다. 그래도 짠밥수가 늘어서 보는 관점이 많이 달라졌죠. 하여간 지금은 수식을 보면 신물이 나고, 골치가 아픕니다. 이해하시고요. 하여간 아이디어는 전반적으로 맞으니까 방향만 이해하시고 정확하고 자세한 것은 교과서 책을 보시면 됩니다.

 

대부분 다변량 책은 위처럼 정규분포를 가정하지 않고 변동을 최대화 하는 조건을 통해 이론을 전개합니다. 그래서 위의 아이디어를 놓치기 쉽습니다. 다음에는 위 최대화하는 공식을 간단히 소개해 드리겠습니다.