회귀분석 기초 이해: 다중회귀분석
독립변수가 하나가 아니라 여러개가 있는 경우 다중회귀분석이라고 하여 단순회귀분석과 구별을 하는데 사실 통계학에서는 구별을 하지 않습니다. 이런 구별은 대학교 1학년 기초 통계학에서 구별을 하죠.
오늘은 독립변수가 여러개, 즉 X1, X2, X3가 있다고 하죠. 그럼 회귀모형식은
Y=b0+b1*X1+b2*X2+b3*X3+e
이라 하죠.
1. 독립변수가 서로간 독립인 경우
: 상관계수를 구해 보니까 독립변수들간에 상관계수가 전부 0일 경우
이 경우 특별히 2개의 독립변수가 orthogonal 하다는 표현을 씁니다.
현실에서는 절대로 나올 수 없지만 이론적으로 만들 수가 있습니다.
탐색적 요인분석을 하여 요인점수를 저장하여 이 요인점수를 독립변수로 사용하면 됩니다. 이 경우 요인점수는 표준화되어 있으면 요인점수들간에 서로 독립적입니다.
하여간 이 경우 회귀분석을 할 때 독립변수 3개를 다 쓸 필요가 없습니다. X1, X2, X3 각각 단순회귀분석을 돌리면 됩니다. 그럼 독립변수 3개를 동시에 넣은 회귀분석 모형과 같은 결과를 얻습니다. 회귀계수 추정값도 똑같고 t 값, p 값 모두 똑같이 나옵니다.
2. 단순회귀분석과 마찬가지로 모형통계량으로 R과 R2이 나옵니다.
R은 종속변수와 세 개의 독립변수가 만들 수 있는 가장 큰 상관계수로 이해를 하시면 됩니다. 수학적으로 설명하면 3개의 독립변수의 선형결합 중 종속변수와 가장 큰 상관계수 값을 말합니다.
R2은 단순회귀분석과 마찬가지로 결정계수라고 하면 R 값을 제곱하면 됩니다. Y의 변동 중 3개의 독립변수가 설명하는 변동 정도를 말합니다.
그 다음 분산분석표에서 F 값을 구할 수 있는데 다음의 가설을 검증하는 F 검증을 말합니다.
귀무가설 H0: b1, b2, b3 모두 0 이다. 또는 X1, X2, X3 모두 종속변수에 유의적인 영향력이 없다.
대립가설 H1: b1, b2, b3 중 최소한 하나는 0이 아니다. 또는 X1, X2, X3 중 최소한 하나는 종속변수에 유의적인 영향력이 있다.
따라서 이 F 검증에서 유의적으로 나오지 않으면 t 검증한 회귀분석 위의 결과물에서 모두 유의적으로 나오지 않을 가능성이 매우 높습니다. 물론 꼭 일치하지는 않습니다. 이런 문제를 다중추론(simultaneous inference)의 문제라고 합니다. 이와 매우 비슷한 문제가 사후검증에도 나옵니다.