회귀분석/회귀분석,Regression

회귀분석 기초 이해:상관계수와 회귀분석

학위논문통계 2024. 6. 9. 01:11

 

회귀분석에 나오는 기본적인 개념도 잘 모르시는 분들이 계셔서 오늘은 상관계수와 단순회귀분석의 예를 들어서 회귀분석 결과물을 설명하겠습니다.

 

 

2개의 변수 XY의 상관계수를 구하면 0.815가 나옵니다. 이 경우 Y를 종속변수, X를 독립변수로 하여 단순회귀분석을 하면 다음과 같은 결과를 얻을 수 있습니다.

 

 

독립변수 비표준 표준 t p
B s.e. 베타
상수 0.912 0.151 . 6.056 0.000
X 0.789 0.036 0.815 22.110 0.000***
모형통계량 R=0.815, R2=0.663, F=488.847, p=0.000***

 

 

비표준의 경우 원 변수 X, Y를 써서 회귀분석을 한 경우이고 표준의 경우 변수 X, Y를 표준화, 즉 평균이 0이고 표준편차가 1인 변수로 변환을 한 다음 회귀분석을 한 결과이다. 이 경우 상수항은 이론적으로 0이 됩니다.

 

표준의 경우 베타값을 보면 상관계수 값 0.815와 일치하는 것을 알 수 있습니다. 종속변수를 X로 하고 독립변수를 Y로 해서 회귀분석을 해도 똑같은 결과를 얻을 수 있습니다.

 

아래 모형통계량을 보면 R=0.815로 되어 있습니다. 통상 상관계수는 r로 표시를 하는데 회귀분석에서는 R로 표시를 합니다. 즉 독립변수 X와 종속변수 Y간의 상관계수라는 말입니다.

 

그 옆에 R2=0.663이 있는데 이건 결정계수라고 하는 것입니다. 표시 그래도 R을 제곱한 값입니다. 이 값의 의미는 독립변수 X가 종속변수 Y의 변동(variation) 66.3%를 설명한다는 말입니다. 변동은 그냥 분산이라고 생각하시면 됩니다. 어떤 변수의 변동을 측정하는 방법 중 하나가 분산입니다. 이 변동을 잘 설명할수록 좋은 독립변수이고 모형의 적합도가 높아집니다.

 

그 다음 F는 분산분석에서 나오는 F 검증 값입니다. 위의 t 값을 제곱한 값입니다. , 22.110^2=488.847입니다. F 검증은 독립변수 X가 유의적인 설명력이 있는가를 검증하는 값입니다. ,

 

Y=b0+b1*X+e

 

회귀분석 모형에서

 

귀무가설: b1=0,

 

대립가설: b1=0이 아니다.

 

이 가설 검증을 위 부분에서는 t 검증을 하였고, 아래 모형 통계량에서는 분산분석의 F 검증을 한 것에 불과합니다. 따라서 위 부분의 t 검증의 p 값과 아래 Fp값은 항상 일치합니다.

 

 

여기서 독립변수가 X1, X2, X3 등 여러 개가 있을 경우 해석이 약간 달라집니다.

 

이 경우는 다음에 시간이 날 때 다시 한번 설명하겠습니다.