통계이론/구형성검증, 다변량검증

구형성검증, 다변량검증, 공분산행렬, 독립

학위논문통계 2022. 11. 1. 12:07

구형성 검증이라고 탐색적 요인분석에서 바트렛 검증이 나오고 또 spss 곳곳에서 나옵니다. 이 구형성 검증의 용어를 이해하려면 불행이도 상당한 수학 이론을 이해해야 합니다.

 

일단 스트레스 설문문항이 3개 이고, 소진 설문문항이 2개가 있다고 하죠. 그럼 우리는 5개의 측정치, 5개 변수에 해당하는 데이타를 가지고 있는 것입니다.

 

그럼 이 5개의 변수의 공변산을 구했을때 이 공분산 행렬이 대각행렬(diagonal matrix), 또는 identity matrix인가 아닌가를 알고 싶다는 것이죠. 예를 들어

공분산 행렬이 대각행렬이라는 말은 5개의 변수가 서로 독립이라는 이야기입니다. 그럼 스트레스 측정문항과 소진 측정문항간에는 독립적일 가능성도 좀 있지만 스트레스 측정문항3개간에는, 그리고 소진 측정문항 2개간에는 독립이 아니고 매우 밀접한 관계가 있어야 합니다. 따라서 설문문항 5개의 공분산 행렬은 절대로 저런 모양을 가질 수가 없습니다. 따라서 구형성인가 아닌가 검증은 당연히 구형성이 아니다라고 나와야 합니다. 즉 기각됩니다.

 

지금 이 이야기는 탐색적 요인분석에서만 해당되는 것이지 다른 분석에서는 구형성이라고 나오는 것이 좋을 수가 있습니다. 그건 분석의 맥락에 따라서 달라집니다.

 

구의 저 표현 안에 들어있는 행렬 모양이 변수가 독립일 경우 공분산 행렬과 같다는 것입니다. 앞의 sigma2은 상수라 별 중요하지 않고요.

 

저 행렬 모양이 복잡한 경우도 우리가 좌표 전환을 하면 위의 모양과 비슷한 대각행렬로 만들 수 있습니다. 이 정리를 spetral decopmpositin theory라고 하는데 이 때 대각행렬에 있는 요소의 값을 고유값(eigenvalue)라고 합니다. 즉 복잡하게 생긴 행렬 모양도 좌표전환을 하며 다음과 같은 단순한 대각행렬의 모양으로 바꿀 수가 있습니다.

여기서 lambda가 고유값이고 이 고유값을 다 곱하면 그 행렬의 trace라고 합니다.

 

그래서 수학적으로 매우 복잡한 현상도 좌표전환, 즉 변환을 통해 매우 간단한 수학 표현으로 바꿀 수가 있고,

또 겉으로 보기에는 전혀 다른 행렬도 이 좌표전환을 하면 똑같은 고유값을 같는 행렬로 바뀌어 집니다. 그래서 수 많은 다른게 생긴 행렬도 좌표전환을 하면 본질적으로 같은 고유값을 갖는 대각행렬로 바뀌어 집니다. 여기서 고유값이라는 용어가 생긴 것입니다.

 

이 내용이 spetral decomposion theory의 핵심 내용입니다.

 

 

이 독립 가정은 통계학에서 매우 중요합니다. 통상 iid라는 용어를 쓰는데 identically independent distributed의 약자입니다.

 

통계학에서 추론(inference), 즉 모수 추정이나 가설검증을 하려면 데이타 y의 결합밀도함수를 구해야 합니다.

 

예를 들어 y가 평균이 u이고 분산이 s2이라고 하면 , 그리고 데이타 y5개만 측정했다고 하면 이 iid 조건을 만족시키면 그냥 정규분포식 5개를 곱하기만 하면 됩니다.

 

f(y1, y2, y3, y4, y5)=f(y1)*f(y2)*f(y3)*f(y4)*f(y5)

 

이렇게 하면 이 결합밀도함수의 공분산 행렬은 정확하게 위의 공분산 행렬의 모양을 하게 됩니다.

 

그러나 세상일이 항상 이렇게 간단하지만 않죠.

 

예를 들어 사람 머리의 뇌파를 측정한다고 하죠. 그림 머리 7개 위치에 전기측정기기를 꼽고 관찰을 하죠. Y1, ..., Y7까지 측정합니다.

 

각각 다른 사람의 뇌파 값은 서로 독립적이라고 할 수 있지만 동일한 사람에게서 측정한 뇌파 7개 값은 독립이라 가정할 수 없습니다.

 

또 다른 예를 들면 비료A, 비료B, 비료C를 투입했을 경우 나무의 성장을 10년동안 관찰한다고 하죠.

 

각각 다른 비료간에는 서로 독립적이라 할 수 있지만 동일 비료를 쓴 경우 나무의 성장은, 또 동일비료의 동일나무의 10년간 성장 값은 서로 독립이라 할 수가 없다는 것이죠.

 

이런 복잡한 상황에서 구형성 검증과 비슷한 검증이 많이 있습니다. 이건 다변량 책을 보셔야 합니다. 그러나 논문 쓰시는데는 별 신경을 쓰지 않아도 됩니다. 그냥 이런 것이 있다고 생각하시면 됩니다.

 

단 사회적으로나 과학적으로 매우 중요한 프로젝트의 경우 통계학 이론에서 나오는 수 많은 가정 들을 정확하게 검증을 해야 합니다.

 

 

다음은 Johnson & Wichern"Applied Multivariate Statistical Analysis"에 나오는 내용입니다.

 

이 책은 매우 유명한 책입니다. 특히 통계학 이론을 좀 잘 알고 싶은데 수학, 특히 행렬 이론은 너무 모르겠다고 하시면 이 책을 추천합니다. 수학과의 행렬 이론책은 다른 분야 사람이 공부하기는 좀 버겁습니다. 이 책은 통계학에서 나오는 행렬 이론을 매우 쉽게 써져 있는 책입니다. 이 책은 인터넷에서 pdf파일로 돌아다닙니다.