교차분석,카이제곱/교차분석,카이제곱

교차분석의 이해1

학위논문통계 2013. 3. 7. 02:36

 

교차분석은 관심을 가지고 있는 사회현상의 현황이나 실태를 분석하는 가장 기본적인 분석입니다. 우리나라에서는 대부분 두 변수간의 교차분석을 하고 카이제곱을 구하는 것으로 긑납니다.

 

연령별로 선호하는 TV 프로그램의 경우를 보죠.

 

설문지는 이렇게 작성되겠죠.

 

1. 여러분의 연령은?

1) 20대 이하 2) 30-40대 3) 50대 이상

 

2. 여러분이 선호하는 프로그램은?

1) 연예 2) 스포츠 3) 시사교양

 

그러면 데이터는 아래 형태로 될 겁니다.

 

id

연령

선호프로그램

 

1

1

1

 

2

3

3

 

3

2

2

 

4

2

1

 

 

 

예를 간단하게 하기 위해서 각 연령대별로 100명씩 총 300명을 대상으로 하였다 하고 교차분석을 돌리면 다음과 같은 분할표를 얻을 수 있습니다.(SPSS에서 기술통계=>교차분석 하고 통계량에서는 카이제곱을 선택하면 됩니다).

 

구분

연예

스포츠

시사교양

X2

p 값

20대 이하

70

(70)

20

(20)

10

(10)

23.036

0.001***

30-40대

40

(40)

30

(30)

30

(30)

50대 이상

50

(50)

20

(20)

30

(30)

전체

160

(48)

70

(21)

70

(21)

N=300명

* p<.05, ** p<.01, *** p<.001

 

여기서 위의 숫자는 빈도이고 아래 괄호안에 있는 숫자는 백분율, 즉 비율입니다. 예를 들어 20대 이하 100명 중에서 연예 프로그램을 좋아하는 사람은 70명이고 그 비율은 20대 전체 100명 중 70%라는 이야기입니다.

 

그리고 p 값이 0.001***에서 보듯이 연령별에 따라 선호하는 프로그램에서 유의적인 차이가 있고, *가 세 개라서 그 차이는 매우 뚜렷하다는 것을 알 수 있습니다. 또 주어진 데이터 상에서 연령별로 선호하는 프로그램에 차이가 있다는 결론을 내려도 이 결론이 틀린 가능성은 0.001입니다(실제로는 0.001 이하입니다. 반올림 된 것이기 때문에 정확한 p 값은 알 수 없죠).

 

그리고 맨 아래는 연령별과 관계없이 전체적으로 보아서 선호하는 프로그램의 빈도와 백분율입니다.

 

그러면 이 표의 해석은 어떻게 할 것인가?

 

우리가 알고 싶은 것은 연령별로 선호하는 프로그램에서 차이가 있는지 없는지를 알고 싶은 것입니다. 차이가 있다는 이야기는 연령이 선호하는 프로그램에 영향을 미치는 변인이라는 이야기고 차이가 없다는 이야기는 연령과 선호하는 프로그램은 서로 독립적, 즉 아무련 관련이 없다는 이야기입니다.

 

이걸 해석하기 위해서는 다음과 같은 사항을 이해를 하셔야 합니다.

 

1. 연령과 프로그램이 서로 독립적, 즉 아무런 관계가 없다면 이론적으로 카이제곱은 0이 됩니다.

 

2. 표에서 빈도는 아무런 의미가 없습니다. 중요한 것은 백분율(%)입니다. 이 이 백분율이 연령대별로 차이가 있는지 없는지를 봐야 합니다. 빈도수는 표본수에 따라서 얼마든지 달라질 수 있습니다.

 

즉 연령이 20대 이하일대 백분율=(70%, 20%, 10%),

연령이 30-40대일 때 백분율=(40%, 30%, 30%),

연령이 50대 이상일 때 백분율=(50%, 20%, 30%)

 

 

이 세 개의 백분율이 같은지 다른지를 알고 싶은 것입니다. 분석결과 차이가 있다는 결론이 나으니까 어떻게 차이가 나는지 이걸 적어 주시면 됩니다. 분명이 예능에서 연령별로 차이가 많이 나지요.

 

일반인들은 통상 연령대별로 빈도나 백분율이 높게 나오는 것을 적는데 이걸 적은 것이 아니라 각 연령별대로 백분율이 뚜렷하게 차이가 나는 것을 적은 것입니다. 만약 카이제곱 검증에서 차이가 없다는 결론이 나오면 더 이상 구체적으로 논할 필요가 없습니다. 이건 연령과 선호 프로그램이 서로 독립이라는 이야기도 연령별로 구체적으로 분석할 필요가 없이 맨 마지막의 전체의 백분율만 보면 됩니다는 것입니다. 실제 표 상으로는 연령별 백분율과 전체 백분율은 당연히 다르게 나옵니다. 그러나 이건 표본추출 상에서 나오는 우연한 차이라고 보는 것이죠.

 

즉, 이론적으로 연령과 프로그램이 독립이면

 

백분율|20대 이하 = 백분율|30-40대 이하 = 백분율|50대 이상= 전체의 경우 백분율

이 성립됩니다.

 

다음 글에서 왜 이렇게 되는지, 카이제곱이 어떻게 해서 나왔는지 설명드리겠습니다.

 

2. SPSS에서 카이제곱 말고 꽤 많은 통계량들이 있습니다. 일단 카이 제곱은 연령과 프로그램간에 서로 독립인지 아니지에 대해서 이야기 하지 서로 연관관계에 대해서는 이야기 하고 있지 않습니다. 여기서는 프로그램 변수가 명목형 변수이기 때문에 연관성을 이야기 할 수는 없지만요.

 

만약 반응변수가 흡연과 비흡연 등 흡연여부 변수라고 하죠, 그럼 연령이 높아질수록 흡연가능성이 높아질 것이다 이런 생각을 할 수 있죠. 이럴 경우는 카이제곱은 의미가 없습니다.

 

SPSS에서 나오는 다른 통계량의 정확한 의미를 아시려면

Agresti의 Categorical Data Analysis를 보시면 되고 이 책의 요약판이 번역되어 있는데 (범주형 자료 분석, 빅태성, 이승인 공역)이 번역판에는 이 통계량에 대한 내용은 없습니다.

 

3. 이론적으로 주요한 경우는 반응변수가 경우가 2개인 경우입니다. 즉 사는지, 죽는지, 또는 병이 걸리는지 안 걸리는지, 또는 선거에서 이기는지 지는지, 부도가 나는지 안 나는지. 등등...

 

또 이론적으로 많이 사용되는 통계량이 오즈비(odds ratio)입니다. 이것도 다음 글에서 조금 자세히 쓰겠습니다.

 

4. 두 개의 변수외에 제3의 변수가 들어갈 때 심슨의 역설이라는 현상이 생깁니다. 이건 이상한 통계에서 나중에 설명을 드리겠습니다. 이런 이야기입니다. 요새 야구 이야기가 나왔으니까.

 

A와 B라는 타자가 있습니다. A 타자는 우투수나 좌투수를 대상으로 모두 B 타자보다 타율이 높습니다. 그러나 전체적으로 보면 B 타자가 A 타자보다도 타율이 높게 나오는 현상입니다.

 

6. 간단한 표에 불과하지만 여기 이론을 충분히 이해하시면 로그 선형 모형이나 로직스틱, 의사결정 트리 등으로 이론이 확장되어 가는 것을 이해하실 수 있습니다. 예를 들어 이번 대선에서 말이 많은 선거조작 의혹 같은 것도 이해를 할 수 있습니다. 로직스틱 모형에서 개표 시간에 따라 오즈비가 어떻게 달라지는지 이론적으로 이해할 수 있습니다.