회귀분석/추가사항

추가설명력 F 검증과 마스킹 효과

학위논문통계 2013. 4. 24. 06:02

 

이번에는 추가적 영향력, 설명력에 대해, 또 마스킹 효과에 대해 그림을 통해 보겠습니다. 그림 실력이 없어 죄송합니다.

 

선형대수를 잘 모르시면 이해가 좀 안되겠지만... 일반적으로 아래 그림에서 X1이라고 쓴 것은 독립변수가 하나가 아니라 여러개입니다. 또한 X2도 여러개입니다. 만약 여러분이 SPSS에서 block을 설정해서 단계별 회귀분석을 했다면 첫단계에서 넣은 독립변수가 X1이 되는 것이고 두 번째 불록에서 추가로 넣은 독립변수들이 X2가 됩니다.

 

 

 

 

 

 

어럽게 생각하지 말고 그냥 X1도 하나의 변수, X2도 하나의 변수, 그럼 종속변수 Y까지 생각하면 3차원 공간이 되니까 그냥 3차원 공간에서 생각하신 후 상상력을 발휘해 고차원 공간으로 해석하면 됩니다.

 

 

일단 Y1 종속변수 Y의 값을 첫째 독립변수 X1이 생성하는 공간에다 투사(projection)한 것입니다. Y2 은 모형에 독립변수 X1이 들어간 후 X2를 추가로 넣을 경우 종속변수 Y의 값을 총 독립변수 (X1, X2)가 생성하는 공간에 투사한 값입니다.

 

 

그래서 Y1의 기러지가 Y의 변동 중 처음 X1이 설명하는 변동입니다. 그리고 Y2의 기러지가 (X1, X2), 늘어난 독립변수가 설명하는 변동입니다. 그래서 Y1에서 Y2로 늘어난 기럭지가 X2가 설명하는 추가적인 변동입니다.

 

그럼 기럭지 해석은 다음과 같이 됩니다.

 

 

Y의 변동=X1이 설명하는 변동+X1이 들어간 후 X2가 설명하는 변동+설명못하는 변동 , 즉

 

Y의 총기러지=Y1의 기러지+(Y2-Y1)의 기러지+높이의 기러지

 

 

 

이렇게 된다는 것이죠. 여기서 설명못하는 변동이 Y에서 Y2로 투사할 때 생기는 높이, 잔차(residual)의 기러지입니다. 잔차는 오차 e가 실제 데이터 분석시 실현된 값입니다.

 

별 어려운 내용이 아닙니다. 중고등학교때 배운 삼수선의 정리입니다.

 

 

그럼 이제 추가로 투입되었다는 것을 해석하는 데 별 문제가 없겠죠. 그럼 추가로 투입된 설명력이 의미가 있는지, 통계적으로 유의적인지 검증은 어떻게 할가요? 원래 모형통계량 F의 검증도 결정계수를 가지고 하지 않고

 

 

Y1의 기러지/ 잔차의 기러지

 

 

이렇게 합니다. 마찬가지로 추가적인 영향력도

 

그림에서

 

(Y2-Y1)의 기러지/ 잔차의 기러지

 

 

이런 식으로 F 검증을 합니다. 왜냐하면 기초통계학에서 F의 검증을 보면 분모, 분자가 독립이 되어야 한다고 되어 있습니다. 즉 위의 그림에서 수직의 관계일 경우, 또 Y가 정규분포이면 통계적으로 독립이 됩니다. 그래서 이런 식으로 검증을 한다는 것이죠.

 

결정계수는 이렇게 안됩니다. 이건

 

 

결정계수=Y1의 기러지/Y의 기러지

 

 

이렇게 되는데 Y와 Y1는 서로 수직이 아니거든요.

 

 

다음은 masking 효과입니다. 아래 그림을 보시죠.

 

 

 

 

 

 

 

 

 

그림에서 이상한 값을 가진 데이터가 몇 개 들어오면 회귀계수 값을 완전히 엉뚱하게 만듭니다. 특히 양 극단에 있을 경우 그 정도가 심해집니다. 중앙에 극단값이 있으면 큰 영향을 못미칩니다.

 

SPSS 메뉴에서 영향력이 있는 값 분석을 선택하면 이런 이상치가 회귀분석에 영향을 미치는 것을 분석할 수 있습니다.

 

원래 이런 분석을 다 한 후 회귀분석에 들어가야 하는데 이렇게 까지 하면 시간이 엄청 걸리겠죠. 이상한 데이터를 삭제하는 작업을 계속 시도해야 합니다. 이렇게 해야 하는게 원칙이지만 시간과 돈이 들어가니까 통상 안하죠. 만약 이것을 고려해 의뢰비를 받으면 아무도 의뢰를 하지 않습니다.