회귀분석/이론

회귀분석이론3

학위논문통계 2013. 3. 21. 23:36

 

 

 

1. projection

 

지난번에 언급한 projection 개념이 어렵나요? 실제로는 그렇지 않습니다. 여러분이 고등학교때 고생한 한 점과 직선과의 거리나, 삼차원 공간에서 한 점과 평면과의 거리 구하는 것이라 똑같은 것입니다. 한 점과 직선이나 공간에서의 거리를 구할 경우 그 점에서 직선이나 공간에 수직으로 떨어뜨리는 것이거든요. 이런 작동을 하는 것을 projection(투사)라고 합니다.

 

이때 한 점은 우리 예의 경우 종속변수의 값이 되고, 직선이나 평면은 독립변수을 포함하는 직선이나 공간이 됩니다. 그리고 이때 한 점과 거리나 평면과의 거리는 앞에서 이야기한 잔차의 거리 개념, 또는 종속변수의 변동 중 독립변수가 설명하지 못하는 변동이 됩니다.

 

독립변수가 만드는 공간은 여러분도 아시는 개념입니다. 두 직선이 있으면 두 직선을 포함하는 평면이 있다는 것을 아시죠. 이것도 마찬가지입니다. 독립변수가 있으면 이 독립변수들을 포함하는 공간이라는 것이죠. 그게 b1X1+b2X2+... 이렇게 표현된다는 것이죠. 정확하게는 앞의 상수항도 포함하는 1벡터도 들어가지만요.

 

그래서 우리의 예는 설문응답자가 3개인 경우니까 3차 공간에서 설명한 것이고, 흔히 200명 대상, 500명 대상인 경우 이젠 200차 공간, 500차 공간에서 이야기가 된다는 것이죠. 바로 상상할 수 없으니까 3차원에서 설명하고 이걸 200차, 500차 공간에서 추상적으로 생각하라는 것이죠.

 

그럼 이런 의문이 생길 수 있습니다. 이렇게 projection 해서 b의 값들을 추측하는 것이 과연 좋은 방법일까요?

 

y가 확률을 가지지 않는, 비확률적 세상이라면, 혹은 아이슈타인이 이야기한 휘어진 공간이 아닌 우리가 일상적으로 생각하는 평평한 공간이라면 좋은 방법입니다. 여러분이 더 좋은 방법이 있다면 바로 세계적인 학자기 되겠죠. 그래서 통상 전산학에 나오는 많은 수치해석 알고리즘이 이렇게 거리를 최소화 하는 또는 최대화하는 문제를 푸는 알고리즘입니다.

 

하여간 통계학에서는 확률적 세상을 다루기 때문에 이 프로젝트 하는 방법이 통계학적으로 좋다는 이야기를 해야 하거든요. 그래서 통상 회귀분석 이론 책 앞에 구질구질하게 나오는 이야기들이 이 투사가 통계학적으로 좋다는 이야기를 하는 것입니다.

 

 

 

 

2. 수정결정계수

 

앞에서 수정 결정계수는 음수(-)가 나오는데 이건 공식상 어쩔 수 없습니다. 이렇게 음수가 나오는 경우는 거의 없는데 결정계수 값이 매우 낮거나 우리의 예처럼 설문응답자 수와 독립변수의 수가 거의 차이가 없는 경우, 즉 설문응답자의 수에 비해 독립변수의 수가 너무 많으면 이런 경우가 생깁니다. 그래서 수정결정계수가 음수가 나와도 너무 당황해 할 필요가 없습니다. 중요한 통계값도 아니고요.

 

 

3. Y 변동의 분할 문제

 

그래서 우리의 변동은 직각삼각형의 피타고라스 정리처럼 전개된다고 했습니다. 이 변동을 설명한다는 것은 통계 분석 곳곳에서 나옵니다. 예를 들어 요인분석에서 나오는 고유값도 이런 개념입니다. 설문문항의 변동을 표준화 했을 경우 요인들이 설명하는 변동입니다.

 

하여간 Y라는 현상을 설명하기 위해 A라는 원인에 해당하는 독립변수를 고려했을 경우

 

(Y의 변동) = (A가 설명하는 변동)+(A가 설명 못하는 변동)

 

이렇게 됩니다. 그럼 A가 여전히 설명 못하는 변동 때문에 Y를 설명할 수 있는 B라는 원인 변수를 더 첨가했다고 하죠. 그러면 저 식은 어떻게 변할까요?

 

(Y의 변동)=(A가 설명하는 변동)+(B가 추가적으로 설명하는 변동|A가 이미 모형에 들어간 상태에서)+(A,B가 설명 못하는 변동)

 

처럼 됩니다.

 

A, B를 넣었는데도 두 개가 설명하는 변동이 여전히 마음에 안 들어 (즉, A,B가 설명 못하는 변동은 B가 새로 들어오면서 줄어들기는 하는데 여전히 이 설명 못하는 변동이 많다고 느끼는 것이죠), C라는 Y을 설명할 수 있는 요인을 하나 더 추가했다고 하죠. 그럼 어떻게 될까요?

 

 

(Y의 변동)=(A가 설명하는 변동)+(B가 추가적으로 설명하는 변동|A가 이미 모형에 들어간 상태에서)+(C가 추가적으로 설명하는 변동|A,B가 이미 모형에 들어가 있는 상태에서)+(A,B,C가 설명 못하는 변동) ---(1)

 

 

이렇게 분해된다는 것이죠. 불행하게

 

(Y의 변동) = (A가 설명하는 변동)+(B가 설명하는 변동)+(C가 설명하는 변동)+(A,B,C가 설명 못하는 변동) ----(2)

 

이런식으로 깔끔하게 쪼개지지 않는다는 것이죠.

 

(1)식처럼 분해하는 것을 Type1 이라고 합니다.

 

이렇게 하지 않고 회귀분석의 t 검증처럼 애초에 들어가 있는 독립변수 세 개 A, B, C를 다 고려한

 

A의 추가적 변동|B,C가 이미 들어간 모형에 들어가 있는 상태에서,

B의 추가적 변동|A,C가 이미 들어가 있는 상태에서,

C의 추가적 변동|A,B가 이미 들어가 있는 상태에서

 

 

이런 변동을 샐각해  보실 수 있습니다.

 

이해가 안되시면 다시 회귀분석 이론 처음부터 읽어 보시기 바랍니다.

이렇게 따로 변동을 구해서 A, B, C가 의미 있는 변수, 요인인지 검증하는 것을 Type 3이라고 합니다. SPSS에서 분산분석 메뉴에 보는 Type1, Type3이 이걸 의미합니다.

 

특수한 경우가 아니면 Type1은 선호되지 않습니다. 대부분의 경우 세 개의 요인, 변수 A, B, C 중 A가 제일 먼저 들어가야 할 이유, 선호할 이유가 없다는 것이죠. A, B, C 중 어는 것이 먼저 들어가는냐에 따라 통계 결과가 다 달라지거든요.

 

(2)의 식처럼 보기 좋게 나오게 하려면 앞에서 이야기한 것처럼 각 독립변수들이 독립적으로 들어가야 합니다. 이걸 공간에서 그림을 그리면 각 독립변수들이 수직(orthogonal)하게 되어야 합니다. 이건 별 어려운 개념이 아니고 예를 들어 삼차원 공간에서 (1, 0, 0), (0, 1, 0), (0, 0, 1) 이 세 개의 직선은 그림을 그리면 서로 수직이죠. 이렇게 각 독립변수의 값들이 n 차 공간에서 수직처럼 되어야 한다는 것입니다.

 

이처럼 독립변수들이 수직처럼 안되고 서로 밀접하게 되어 있어, 즉 독립변수들간의 상관관계가 높아지면 다중공선성이 있다고 이야기하고 심각한 문제가 생긴다는 것이죠. 마치

 

b1+2*b2=4

2*b1+4*b2=10 ---(3)

 

미지수 b1, b2(우리의 회귀분석에서는 회귀계수)를 가진 이 두 개의 방정식은 안 풀리잖아요. 앞의 계수만 뽑아보면 (1,2)와 (2,4)로 길이만 다르지 사실상 방향은 같거든요. 그래서 이 두 개의 값은 상관관계가 완전히 1인 경우입니다.

 

 

 

4. 다중공선성 측정값

 

그래서 다중공선성을 미치 측정을 해야 하는데 여기에 주로 사용되는 통계값이 VIF, tolerance, condition 지수입니다.

 

tolerance는 VIF의 역수인데(전에 어떤 책에서 받는데 잘 기억이 안나네요) 통계 이론 책에 잘 안 나옵니다.

 

VIF의 아이디어는 간단합니다.

 

회귁분석의 결정계수 R^2는 이런 의미가 있다고 했죠. 종속변수 Y와 독립변수 X1, X2, X3,..등과 얼마나 가까운지, 즉 얼마나 밀착해있는지 그런 개념입니다.

 

그래서 이 개념을 이용한 것입니다. 지금은 독립변수들간의 이런 밀착성(다중 공선성)에 대해서 보고자 하는 것이거든요.

 

즉 어떤 특정 독립변수 X(i)의 VIF는 X(i)와 X(i)를 포함하지 않는 나머지 독립변수간의 결정계수를 보자는 것입니다.

 

예를 들어 A, B, C 세 개의 독립변수가 있고, B의 VIF를 구하려면 일단 B를 종속변수로 놓고, A와 C를 독립변수로 하고 그런 다음 회귀분석을 하여 결정계수 R^2을 구한다는 것이죠.

 

 

B=b0+b1*A+b2*C+e

 

이렇게 독립변수들간에 회귀모형을 세우고 결정계수 R^2을 구한다는 것이죠.

 

그럼

 

B의 VIF=1/(1-결정계수)

 

 

그래서 결정계수가 0인 경우 , 즉 B와 (A,C)과 완전히 독립인 경우 VIF는 1, 결정계수가 1인 경우 즉 B와 (A,C)가 완전히 일치되는 경우는 무한대 값을 가집니다.

 

통상 10이상이면 다중공선성이 있다고 판단합니다. 책에 따라서는 5이상으로 하기도 하고요.

 

반면 독립변수들간의 상관관계가 높아야 더 좋은 경우도 있습니다. 설문문항의 신뢰도 분석의 경우입니다. 예를 들어 경제적 스트레스를 측정하기 위해 5개 설문문항을 만들었다고 하죠. 이 5개 설문문항을 X1, X2, .., X5라고 하죠.

 

그럼 이 다섯 개의 설문문항이 경제적 스트레스라는 동일한 개념(construct)를 측정하는 설문문항이라면 이 다섯 개 설문문항간의 상관관계는 높아야 좋겠죠.

 

그래서 이런 아이디어에서 나온 것이 SMC라는 것입니다. 다섯 개의 설문문항 중 특정 설문문항의 SMC는, 예를 들어 X3의 SMC는 X3를 종속변수로 놓고, X1,X2,X4,X5를 독립변수로 놓아 그 결정계수를 구한다는 것이죠. 이게 SMC입니다.

 

한편 condition 지수는 고유값(eigenvalue)를 이용한 것인데요. 이걸 설명하려면 시간이 너무 걸리기 때문에 좀 그렇고요. 앞의 독립변수의 값이 방정식 (3)의 경우처럼

 

[1, 2]

[2, 4]

 

 

라는 행렬을 만들면 여기에서 고유값이 0이 나옵니다. 상관성이 굉장히 높으면 고유값은 0에 가깝게 됩니다. 이렇게 독립변수들의 값을 행렬을 만들고 독립변수들의 값들의 상관성이 높으면 행렬의 고유값이 0에 가까운 생기는 현상을 이용한 지수입니다.

 

 

 

 

다음은.. 한참 후가 되겠네요. 이 회귀분석 모형의 확대되는 것을 간단하게 설명드리겠습니다.

'회귀분석 > 이론' 카테고리의 다른 글

회귀분석이론 4  (0) 2013.03.26
회귀분석 이론 2  (0) 2013.03.20
회귀분석 이론을 좀더1  (0) 2013.03.19