고급통계모형/대응분석correspondence

대응분석, 대응일치분석

학위논문통계 2014. 6. 24. 20:23

이번에는 대응분석 또는 대응일치(Correspondence Analysis)에 대해 설명을 해보죠.

 

 

얼마전에 서울대 교수가 중국의 외국드라마에 대한 대응분석을 했는데 이 결과에 대한 해석이 한국 드라마를 좋아하는 중국인을 비하했다고 크게 문제가 되었는데요. 이게 아마 대응분석을 한 걸겁니다.

 

 

상황이야 뻔하죠. 학과에 논문 쓰는 중국유학생이 중국에서 설문조사해서 이걸 가지고 논문을 쓰고 국내저널에 냈겠죠. 그런데 이 교수가 제가 알기로는 한겨레에 글 쓰는 교수로 아는데 조선일보가 뒤져서 깐거죠. 한국사람도 한국 저널 논문을 안 읽는데 중국사람이 알지도 못하는 한국저널 논문을 왜 봅니까.

 

 

 

하여간 통계 결과가 나오면 거기에 따른 적절한 해석을 해야 하는데 조금 주의하지 못한 측면이 있죠.

 

 

하여간 이 대응분석은 하기는 쉬운데 별로 쓰는 사람은 없습니다. 통상 범주형 자료는 분석하는데 여러 가지 제한이 있습니다. 거리 개념이 없어서 그렇습니다. 특히 순위 개념마저 없는 명목형 변수의 경우 할만한 분석이 별로 없습니다. 국가별 드라마도 전형적인 명목형 변수이죠.

 

 

그래서 통상 하는 것이 교차 분석(Crosstabs Analysis)입니다. 성별로 나라별 드라마 선호에서 차이가 있는지, 연령별로 나라별 선호도가 차이가 있는지, 소득별로 나라별 드라마 선호에 차이가 있는지, 지역별 나라별 드라마 선호에 차이가 있는지 검증하는 것이죠. 우리나라에서는 거의 카이제곱 검증 정도만 합니다.

 

 

이런 경우 성별, 연령별, 소득별, 지역별과 나라별 드라마 선호도간의 어떤 연관성을 2차 공간에 비주얼하게 보여주는 기법이 대응분석입니다. 이 대응분석에 대한 설명은 책에 잘 안나옵니다.

 

 

제가 아는 책은 공지에 추천한

 

Johnson and Wichern, "Applied Multivariate Statistical Analysis"

 

 

책에 나옵니다.

 

 

교차분석표와 그림을 보면서 설명을 하죠. 아래 표와 그림은 실제 예입니다. 제가 어떤 치매기관에서 의뢰를 받아 작업을 해 준겁니다.

 

 

연령별로 선호하는 치매관련 기관에 대한 분석입니다.

 

 

치매관련

의료기관

보건소

노인복지시설

치매관리센터

모르겠다

검정통계량

p값

빈도

(n)

백분율

(%)

빈도

(n)

백분율

(%)

빈도

(n)

백분율

(%)

빈도

(n)

백분율

(%)

빈도

(n)

백분율

(%)

40세 미만

92

11.1

216

26.1

74

8.9

129

15.6

318

38.4

212.002

0.000

***

40세 이상

- 60세 미만

91

11

242

29.2

62

7.5

218

26.3

216

26.1

60세 이상

149

17.7

201

23.8

199

23.6

131

15.5

163

19.3

 

 

교차분석에서는 빈도수는 중요하지 않습니다. 백분율이 중요하지요. 백분율을 따로 뽑아보지요.

 

 

치매관련

의료기관

보건소

노인복지시설

치매관리센터

모르겠다

검정통계량

p값

백분율

(%)

백분율

(%)

백분율

(%)

백분율

(%)

백분율

(%)

40세 미만

11.1

26.1

8.9

15.6

38.4

212.002

0.000

***

40세 이상

- 60세 미만

11

29.2

7.5

26.3

26.1

60세 이상

17.7

23.8

23.6

15.5

19.3

 

 

백분율은 가로줄에 따라서 나온 것입니다. 백분율을 가로줄로 따라서 합하면 100%가 됩니다. 세로줄을 따라서 합하면 100%가 되지 않습니다. SPSS에서 원하면 다양한 형태의 백분율을 구해 줍니다. 하여간 표의 빨간 색의 11.1%는 40세 이하 사람 중에서 치매관련 의료기관을 선호한 사람의 비율이 11.1%라는 이야기입니다.

 

 

그럼 위 표의 백분율을 보면 40세 미만과 40-60세 간에 치매기관 선호에서 상당히 비슷합니다. 노인복지시설까지는 비율이 비슷하고 치매관리센터와 모르겠다만 좀 다른 비율이 나오죠, 그러나 40세 미만하고 60세 이상은 상당히 다릅니다. 치매관련기관, 노인복지시설, 모르겠다에서 큰 차이를 보입니다. 그래서 아래 그림에서 나이대의 x축을 한번 보시기 바랍니다. 40대 미만과 40-60대는 x축에서 가까이 있고, 60세 이상은 두 집단과 상당히 떨어져 있죠. 그리고 전반적으로 40대 미만과 60대 이상는 거리가 매우 멉니다.

 

 

원 표를 다시 가져 오면

 

 

치매관련

의료기관

보건소

노인복지시설

치매관리센터

모르겠다

검정통계량

p값

빈도

(n)

백분율

(%)

빈도

(n)

백분율

(%)

빈도

(n)

백분율

(%)

빈도

(n)

백분율

(%)

빈도

(n)

백분율

(%)

40세 미만

92

11.1

216

26.1

74

8.9

129

15.6

318

38.4

212.002

0.000

***

40세 이상

- 60세 미만

91

11

242

29.2

62

7.5

218

26.3

216

26.1

60세 이상

149

17.7

201

23.8

199

23.6

131

15.5

163

19.3

 

 

치매관련 의료기관은 60세 이상이 비율이 60세 미만 집단보다 2배 가까이 높죠(92명, 91명, 149명). 노인복지시설에서도 60세 이상이 60세 미만 집단보다 2배 정도 비율이 높고요. 그래서 치매관련 의료기간과 노인복지시설은 서로 비슷합니다. 보건소는 각 나이별로 비율이 비슷비슷하죠(216명, 242명, 201명). 한편 치매관리센터는 40세-60세에서 다른 나이대보다 비율이 2배 정도 됩니다. 그래서 치매관리센터는 치매관련 의료기관이나 노인복지시설과 확실히 다르다고 봐야 합니다. 그림 이걸 그림에서 한번 확인해보죠. y축값을 한번 보세요.

 

 

그림에서 치매관련 의료기관과 노인복지시설의 y축 값이 비슷하고 보건소가 좀 떨어져 있고, 치매관리센텨는 치매관련 의료기관과 노인복지시설과 완전히 떨어져 있죠.

 

 

두 개의 범주형, 나이대와 선호치매기관의 연관성을 보면 40-60세는 치매관리센터 어느 정도 연관성이 있고, 40대 미만은 모르겠다와 강한 연관성(그림 오른쪽 아래, 글자가 겹쳐서 잘 안보이죠.), 60세 이상은 치매의료기관과 노인복지시설과 어느 정도 연관성이 있다는 것이죠. 40대 미만은 아직 치매에 걱정이 없으니 잘모르겠다와 연관이 높고 40-60세는 관리 정도로 생각하고 60세 이상은 이젠 치료정도를 생각하거나 나이를 고려해 노인복지시설은 선호한다고 해석이 되는 것이죠.