회귀분석/회귀분석,Regression

회귀분석 해석 궁금증1

학위논문통계 2021. 9. 30. 10:48

 

 

최근에 process macro로 구조방정식 해 달라는 분들이 많아서여. 이거 나중에 다시 한번 자세히 쓸게요.

 

먼저 이 방법을 지도교수가 강력하게 요구하지 않으면 하지 마세요. 이게 옛날에 나온 Baron & Kenny(1986) 방식인데 이것 문제가 많습니다.

 

통상 조절효과 보는 것도 이 사람들 논문 때문에 하는 것인데 이건 별 문제가 없습니다. 조절효과라는 게 통계학에서 이원분산분석이나 회귀분석에서 상호작용항에 불과한 것이거든요. 이 상호작용항이 유의적으로 나왔는가 검증하는 것에 불과합니다.

 

 

그러나 이 사람들 매개효과 보는 방법은 논리적으로나 통계 이론적으로 문제가 많습니다. 또 정확하게 매개효과 값이나 유의성을 통계학적으로 검증하지 않았고요.

 

이 process macro에서는 이 매개효과 유의성 검증을 bootstrap 방식으로 한 것에 불과합니다.

 

 

amos에서 하는 구조방정식은 실제 연구모형의 변수를 구할 필요가 없습니다. 추정 과정에서 알아서 합니다. 그러나 process macro에서는 연구변수를 설문문항의 평균값으로 실제 데이터 변수를 만들어야 합니다.

 

하여간 좋은 방법은 아니지만 교수가 하라고 하면 해야죠. 의뢰하시면 이 process macro 방식으로 해 드리겠습니다.

 

일반 사회과학 교수들이 통계 전공이 아니라 어느 정도 이해는 하지만 좀....

 

 

오늘은 간단하게 회귀분석시 가질 수 있는 궁금증에 대해 좀 더 이야기를 해볼게요.

 

 

 

다음의 회귀분석 결과표를 한번 보죠.

 

 

독립변수 비표준 표준회귀계수 t 값 p 값
회귀계수 표준오차
상수 0.782        
A 0.000 0.000 0.214 13.221 0.001***
B 22.154 13.094 0.012 0.372 0.874
C . . . . .
모형통계량 결정계수 R2=0.452, F 값=47.593***

 

 

1)

 

여기서 보면 독립변수 A의 회귀계수는 0.000인데 유의적인 영향력이 있다고 나오고 독립변수 B는 회귀계수가 22.154인데 유의적으로 나오지 않습니다.

 

무슨 문제가 있는 것일까요.

 

일단 통계프로그램 결과물에서는 디폴트로 소수점 몇 자리까지 표현한다는 것이 있습니다. 이 설정을 프로그램에서 고칠 수 있는 경우도 있고, 없는 경우도 있습니다.

 

지금 회귀계수가 0.000이라고 나와서 실제 값이 0이라는 이야기는 아닙니다. 소수 3자리 이하에 실제 값이 더 들어가 있습니다. 즉 0.00027이나 0.00000019 일 수 있다는 것이죠.

 

실제 더 정확한 값을 알고 싶으면 통계프로그램 결과물을 엑셀로 export한 다음 엑셀에서 숫자 뒷자리 수를 크게 하면 구체적인 값을 구할 수가 있습니다.

 

 

 

하여간 값이 굉장히 작은데 왜 유의적으로 나올까요. 이건 또 표준오차를 봐야 합니다. 표준오차 값이 엄청나게 작으면 유의적으로 나옵니다.

 

이에 반해 B는 회귀계수가 매우 큰 값으로 나왔지만 표준오차 역시 매우 크게 나와 유의적으로 나오지 않은 것입니다.

 

도대체 이런 차이가 나는 이유는 무엇일까요.

 

일반 사회과학은 리커트 척도로 해서 설문조사하기 때문에 이런 문제가 잘 발생하지 않는데 경제, 경영이나 자연과학에서는 척도가 다 다르기 때문에 이런 문제가 생깁니다.

 

즉, 단위를 원으로 할지 아니면 억 단위로 측정할지 이런 것에 따라 회귀계수와 표준오차가 완전히 달라집니다.

 

 

 

2.

 

따라서 상대적으로 회귀계수 값을 비교하려고 하면 표준회귀계수를 보시면 어느 정도 알 수 있습니다. 이건 독립변수와 종속변수를 평균이 0, 표준편차가 1인 변수로 변환해서 회귀분석을 돌린 것이거든요.

 

그래서 일부 사회과학 논문에서 이 표준회귀계수 값을 가지고 어떤 변인이 영향력이 더 크고 어떤 변인의 영향력이 작다 이런 말을 하는데 좋은 관행은 아닙니다. 왜냐하면 이 표준화를 해도 표준오차가 다 달라지기 때문입니다.

 

 

예를 들어 (2,2,2,3,4,4,4) 이런 데이터와 (1,1,1,3,5,5,5) 이런 데이터와 평균은 3으로 같지만 표준화하면 이 표준화된 변수의 값은 다 다르게 나옵니다. 그래서 표준오차다 달라지고요.

 

그래서 엄밀하게 이런 말을 쓸 수는 없지만 표준회귀계수와 t 값을 보면 어느 정도 영향력의 차이를 알 수 있습니다.

 

 

3.

 

모형 통계량의 R2은 결정계수라고 하는데 이게 구조방정식의 적합도 개념에 해당하는 값이고, 탐색적 요인분석에 누적변동설명력과 개념이 비슷한 측정치라 생각하시면 됩니다.

 

그리고 F값은 대립 가설이 최소한 하나의 독립변인의 회귀계수가  0이 아니다라는 가설을 검증한 값입니다.

 

이게 유의적으로 나와야 합니다. 회귀분석에 들어가는 독립변수 중 하나는 회귀계수가  0이 아니어야 회귀분석한 의미가 있지 독립변수 전부 다 영향력이 없으면 이건 회귀분석할 이유가 없는 것이거든요.

 

그러나 구체적으로 어떤 독립변수가 유의적인 영향력이 있는지 이것까지는 알 수가 없습니다. 그래서 표의 t 검증 값을 보는 것입니다. F 검증이 유의적으로 나와서, 그래서 최소한 하나의 독립변수는 유의적이라 나와서, 그 다음 단계로 그럼 구체적으로 어떤 독립변수가 유의적으로 나왔는지 알아봐야 한다는 것이죠.

 

그런데 여기서 또 다중추론의 문제가 발생합니다.

 

F 검증에서 유의적으로 나왔는데 위의 t 검증에서는 모두 유의하지 않다고 나오는 경우도 있고, F 검증에서는 유의하지 않다고 나왔는데 위의 t 검증에서는 유의하다고 나오는 경우가 있다는 것이죠.

 

 

이게 분산분석에서도 자주 보는 현상입니다. 분산분석했는데 F 검증에서 유의적으로 나왔습니다. 즉 유의적인 차이가 나왔습니다. 그런데 사후검증에서는 유의적인 차이가 있는 경우가 없게 나올 수 있습니다. 반대로 F 검증에서는 유의적인 차이가 없는데 사후검증에서는 차이가 있는 경우가 있습니다.