통계이론/다변량 차이 분석

다변량 차이검증:Hotelling, Wilks, Box M, 신뢰타원체

학위논문통계 2022. 11. 5. 03:42

 

1. 다변량 차이 검증 통계량

 

일변량일 경우 차이 검증하는 방법은 두 집단의 경우 t 검증이 있고, 세 집단 이상인 경우 분산분석의 F검증이 있습니다.

 

예를 들어 사람의 신체를 비교한다고 하면 먼저, 키와 몸무게가 있고, 허리둘레, 또는 다리 길이, 상체 길이, 어깨 넓이, 머리크기 등 다양한 측정값이 있습니다.

 

단순히 남녀간의 키의 차이가 있다, 또는 몸무게의 차이가 있다, 허리둘레의 차이가 있다 이렇게 이야기하는 것은 일변량(univatiate) 입니다. 이 경우 t 검증입니다. 그러나 통체로 남녀간의 신체 차이가 있다고 이야기하는 경우는 앞에 이야기한 다양한 측정변수들을 통채로 이야기하는 것입니다. 이 경우 다변량(multivariate) 차이 검증이 됩니다.

 

구체적으로 아기가 태어난지 1년 후에 신체에서 남녀간에 차이가 있는지 알기 위해 1년된 유아 남자 20명, 유아 여자 20명의 키와 몸무게를 쟀다고 하죠. 그럼 이 경우에 유아 신체의 남녀간의 차이를 검증하는 검증 통계량으로 Hotelling's T^2이 있습니다.

 

또는 애기에게 4가지의 종류의 우유식을 섭취하게 한 다음 일년 후 키와 몸무게를 측정합니다. 그럼 4가지 우유식에 따라 유아의 신체발달에서 차이가 있는지, 즉 키와 몸무게에서 차이가 있는지 검증하는 통계로는 Wliks' lambda가 있습니다.

 

 

t 검증 ==> Hotelling's T^2

분산분석의 F검증 ===> Wilks' lambda

 

를 씁니다.

 

WilKs' lambda 이외에도 이와 비슷한 종류의 다변량 검증 통계량이 있습니다.

 

다음은 Johnson & Wichern의 "Applied Multivariate Statistical Analysis"에 나오는 내용입니다.

 

표본 수가 커지면 위의 다양한 다변량 차이 검증하는 통계량은 서로 비슷한 결과가 나온다고 합니다.

 

이 책은 매우 유명한 책입니다. 특히 통계학 이론을 좀 잘 알고 싶은데 수학, 특히 행렬 이론은 너무 모르겠다고 하시면 이 책을 추천합니다. 수학과의 행렬 이론책은 다른 분야 사람이 공부하기는 좀 버겁습니다. 이 책은 통계학에서 나오는 행렬 이론을 매우 쉽게 써져 있는 책입니다.

 

 

2. 언제 일변량 차이 검증을 하고 언제 다변량 차이 검증을 하는가

 

성별의 차이 검증을 한다면 흔히 하는 방법으로 유아의 키에 대한 차이 검증하는 t 검증을 하고 또 따로 몸무게에 대해 따로 t검증을 하고 이런식으로 2번 독립적으로 할 수 있습니다. 한편 유아의 키와 몸무게를 같이 통채로 다변량 차이 검증인 Hotelling's T^2검증을 할 수 있습니다.

 

물론 이 2가지 방법론에서 결과가 일치하면 아무런 문제가 없겠죠. 예를 들어 유아의 키와 몸무게가 서로 독립적인 현상이면 별 문제가 없겠습니다. 그러나 키와 몸무게가 서로 상관관계가 높으면 결과가 일치하게 나오지 않는다는데 문제가 있습니다.

 

다음은 도마뱀의 키와 몸무게를 측정한 데이터입니다. 도마뱀은 C타입과 S타입 2개가 있고, C타입은 20마리, S타입은 40마리 측정했습니다. 여기서 SVL은 도마뱀 항문부터 주둥이까지 길이를 말합니다. 도마뱀은 야생에서 꼬리가 짤리는 경우가 많아 그렇게 측정했다고 합니다. 왼쪽이 C타입 도마뱀, 오론쪽 2칸이 S타입을 측정한 것입니다. 그리고 아래 plot은 키와 몸무게를 그린 것입니다.

 

그림에서 보면 C타입이나 S타입이나 도마뱀 길이가 커지면 몸무게도 커지고 이 관계는 선형으로 기울기가 거의 일정하다는 것을 알 수 있습니다. 그러나 S타입의 직선이 C타입의 직선보다 일정하게 높게 위치하고 있다는 것을 알 수 있습니다. 즉 일정한 크기의 두 도마뱀의 몸무게를 재면 S타입의 도마뱀이 C타입의 도마뱀보다 몸무게가 많이 나간다는 것을 알 수 있습니다. 즉 S타입의 도마뱀이 C타입의 도마뱀보다 천성적으로 더 통통하다는 이야기이겠지요.

 

여기서 두 변수 키와 몸무게를 동시에 검증한 Hotelling's T2 검증을 하면 두 도마뱀 타입에 따라 차이가 있다고 나옵니다.

그러나 불행히도 키와 몸무게 각각 t검증을 하면 차이가 없다고 나옵니다.

 

그래서 측정변수들간의 상관성이 강하면 다변량 차이 검증도 하는 것이 바람직하다고 할 수 있습니다.

 

 

3. 신뢰구간, 신뢰타원체

 

앞에서 이야기한 것은 신뢰구간에서도 마찬가지입니다. 일차원 신뢰구간(confidence interval)은 2차원 이상으로 가면 타원체 모양의 신뢰구간 모양이 생깁니다.

다변량이 2개 변수인 경우 신뢰타원(confidence ellipse)이라 하고 다변량이 3개 이상의 변수로 구성되어 있으면 신뢰타원체 (confidence ellipsoid)라고 통상 칭합니다.

 

 

4. 공분산 동일성 검증: Box검증

 

흔히 하는 t 검증은 두 집단의 분산이 같다고 가정을 하는 것입니다. 두 집단의 분산이 같지 않으면 수식이 좀 복잡해집니다.

다변량에서도 두 집단의 공분산 행렬이 같은지 검증하는 검증 통계량이 있습니다. 이게 Box의 M검증입니다. 일반적으로 집단이 1, .., k개 있다고 하면

 

귀무가설 H0: S1^2=S2^2=S3^2=...=Sk^2

대립가설 H1: 위의 귀무가설이 틀렸다=최소한 한 집단의 공분산 행렬은 다른 집단의 공분산 행렬과 다르다.

 

입니다.

 

지금까지 쓴 내용은 Johns & Wichern에 있는 내용이고 이 책은 인터넷에서 pdf파일로 다운로드 가능합니다.