고급통계모형/정준분석canonical correlation anal

정준상관분석 해석

학위논문통계 2014. 8. 4. 00:02

 

정준상관분석(canonical correlation analysis)에 대해 가끔 의뢰가 들어오는데요. 불행하게도 이 정준상관분석은 SPSS 메뉴에는 없습니다. 그러나 다행히 SPSS 안에 메크로로 작업해 놓은 것은 있습니다. SPSS에서 검색해서 이 정준상관분석 매크로를 찾아서 거기서 자기 주제에 따라 변형해서 사용하시면 됩니다.

 

정준상관분석은 대부분 다변량 분석 책에 나오는데 실제 결과물을 해석하기기 쉽지 않습니다. 쉽게 설명한 책이 없죠, 옛날 책이지만 결과를 해석하시려면

 

Afifi & Clark "Computer-Aided Multivariate Analysis". Champman & Hall

 

 

를 참조하시고요. 현재 우리나라에서 구할 수 있는지 모르겠네요. 저는 옛날 대학원 시절 배운 책인데.

 

정준상관분석은 회귀분석과 달리 통상 변수들에 대한 사전적인 정보가 부족할 때 사용합니다. 그래서 일종의 탐색적 분석입니다. 회귀분석할 때 독립변수와 종속변수를 선택할 때 연구자는 변수에 과한 사전적인 정보가 어느 정도 가지고 있습니다. 그러나 자기가 관심이 있는 변수들이 짝으로 덩어리로 있다고 해보죠. (X1, X2, ..., X10), (Y1, Y2,..., Y8) 이렇게요. 그런데 두 덩어리간에 어떤 관계가 있을 지 잘 모르겠다는 것이죠. 누가 분석한 것도 별로 없고요. 이런 경우에 정준상관분석을 한번 돌려 본다는 것이죠. 아래 그림을 참조하시고요.

 

 

여기서 Z1과 Z2를 정준변수라 합니다. 두 개의 변수 집단이 이 Z1과 Z2라는 변수를 통해서 서로 상관관계를 가지고 있다는 것이죠. 그래서 이 Z1과 Z2간의 상관계수가 가장 크게 만드는 Z1과 Z2를 구해 내고 Z1과 Z2를 적절하게 해석하는 것이 목적입니다.

 

 

대표적인 정준상관분석의 예로 다음을 들 수 있습니다. 우리가 생각하기에 부모의 양육태도가 학생들의 성적에 영향을 미칠 것이라고 생각이 듭니다. 그러나 구체적인 관계에 대해 잘 모르겠다는 것이죠. 그럼 정준 상관분석을 한번 해 본다는 것이죠. 그럼 X=(아버지 양육태도, 어머니 양육태도)=(부 개방형, 부 합리형, 부 방관형, 부 통제형, 모 개방형, 모 합리형, 모 방관형, 모 통제형) 등 8개 변수가 있고, 학생들 성적에는 Y=(국어, 영어, 수학, 사회, 과학, 체육, 예술) 등 8개의 변수가 있다는 것이죠. 그래서 정준상관분석을 돌려 보니

 

 

Z1=0.09*부 개방형+0.44*부 합리형-0.21*부 방관형+0.38*부 통제형+...

 

 

Z2=0.34*국어+ 0.27*영어 +0.37*수학+0.29*사회+0.44*과학+0.01*체육+0.02*예술

 

 

그럼 일단 정준변수 Z2부터 보죠. 예체능 성적을 제외하고는 Z2는 일반적인 과목의 균등한 가중 평균 비슷합니다. 그래서 우리가 통상 이야기하는 지능에 가까운 변수입니다. 그럼 이 지능 점수 Z2는 정준변수 Z1 즉 부모의 합리성과 어느 정도 통제성이 가미된 부모 양육태도와 가장 밀접한 관계가 있다는 것이죠. 청소년기에는 약간의 통제성도 있어야 학생들 성적이 좋아진다고 볼 수 있죠.

 

 

이게 첫 번째 정준변수 Z1, Z2이고요. 이것만 갖고 부모 양육태도와 학생들 성적의 변동을 충분히 설명 못하면 두 번째 정준변수 Z1과 Z2를 구합니다.

 

Z1=(0.412*부 개방형+0.09*부 합리형+0.271*부 방관형-0.14*부 통제형,....)

 

 

Z2=(0.02*국어+0.11*영어-0.08*수학+0.05*사회+0.01*과학+0.34*체육+0.42*예술)

 

 

정준 변수 Z2는 분명히 학생들의 예체능 성적입니다. 일반 과목의 계수들은 0에 가깝죠. 그런 학생들이 예체능 성적은 부모 양육 정준 변수 Z1의 개방형과 방관형의 혼합된 양육태도와 밀접한 관계가 있다는 것이죠.

 

물론 이렇게 깔끔하게 해석되게 나오는 경우는 그렇게 많지 않겠지요. 아래 표는 실제 분석 예인데 표에 있는 값들의 설명입니다.

 

연구변인

하위요인

정준계수

정준부하량

정준교차부하량

Z1

X1

0.750

0.959

0.754

X2

0.146

0.615

0.484

X3

0.108

0.671

0.527

X4

0.148

0.656

0.516

X5

-0.069

-0.305

-0.240

공유분산

0.454

정준중복지수

0.281

Z2

Y1

0.800

0.964

0.759

Y2

0.186

0.653

0.513

Y3

0.169

0.632

0.497

공유분산

0.585

정준중복지수

0.362

정준상관

0.787

정준상관제곱

0.619

 

 

 

 

1) 정준변수와 정준계수

 

표의 정준계수는 눈에 보이지 않는 정준변수 Z1과 Z2의 상관관계를 최대화 시키는 계수들을 이야기 합니다. 정준계수는 표준화된 계수를 씁니다. 그럼 설명변수쪽을 보면 정준변수와 해당변수쪽 관계를 보면

 

Z1=0.750X+10.148X2+0.108X3+0.148X4-0.069X5

 

이고, 종속변수쪽에서 정준변수와 해당 변수들간의 관계는

 

 

Z2=0.800Y1+0.188Y2+0.169Y3

 

 

로 나왔습니다.

 

 

2) 정준부하량

 

 

설명변수와 종속변수들간의 상관관계가 심하면 위의 정준계수를 가지고 해석하는데 문제가 생길 수 있습니다. 그래서 정준변수와 해당변수들간의 개별적인 상관관계를 봅니다. 이게 정준부하량입니다.

 

 

상관(Z1, X1)=0.958, 상관(Z1,X2)=0.615, 상관(Z1, X3)=0.671,... 등

 

 

마찬가지로 종속변수쪽에서 정준변수와 해당변수들간의 상관관계를 보면

 

 

상관(Z2, Y1)=0.964, 상관(Z2, Y2)=0.653, 상관(Z2, Y3)=0.632

 

 

로 나옵니다.

 

 

3) 정준교차 부하량

 

 

정준부하량 같이 같은 편끼리 상관관계를 볼 수 있지만 다른쪽과 상관관계를 볼 수 있습니다. 이걸 정준교차부하량이라고 합니다. 그래서 한쪽 변수 X와 반대편 정준변수 Z2와의 상관계수는

 

 

상관(X1, Z2)=0.754, 상관(X2, Z2)=0.484, 등등,

 

 

또 한쪽 변수 Y와 반대편 정준변수 Z1과의 상관계수는

 

 

상관(Y1, Z1)=0.759, 상관(Y2, Z1)=0.513,...

이렇게 여러 개의 구해진 계수들을 보면서 정준변수를 해석하고 X변수들과 Y변수들간의 어떤 구조적 관계가 있는지 설명을 하는 분석입니다.

 

 

4) 공유분산

 

 

그 다음 공유분산은 정준부하량을 제곱한 다음 더해서 변수의 개수로 나눈 것입니다. 즉 설명변수쪽을 보면

 

 

공유분산=(0.9592+0.6152+,,,+(-0.305)2)/5=0.454

 

 

상관계수의 제곱이 결정계수임을 알 수 있으니까 이건 정준변수 Z1이 X의 변동 중 평균적으로 설명하는 비율을 이야기 합니다.

 

 

5) 정준중복지수

 

정준중복지수는 정준변수가 반대쪽 변수들의 변동을 설명하는 비중을 이야기합니다. 위 표에서 Z1의 정준중복지수가 0.281이라고 나왔는데 이건 Z1이 반대쪽 변수 Y1, Y2. Y3의 변동 중 평균 28.1 % 설명한다는 이야기입니다.

 

 

 

6) 정준 상관과 상관제곱

 

 

정준상관은 두 개의 정준변수 Z1, Z2간의 상관계수입니다. 즉 상관(Z1, Z2)=0.787 이고 이걸 제곱하면 0.619가 나옵니다. 우리는 회귀분석에서 상관계수를 제곱하면 결정계수가 된다는 것을 배웠습니다. 즉 설명변수 쪽 정준변수 Z1이 종속변수 쪽 정준변수의 변동의 61.9%를 설명한다는 의미입니다.