회귀분석/회귀분석,Regression

회귀분석3

학위논문통계 2013. 3. 17. 16:20

 

독립변인

비표준

표준회귀

계수

t 값

p 값

회귀계수

표준오차

상수

0.124

 

.

1.029

0.176

성별

0.178

 

 

1.987

0.034*

학력

-0.202

 

 

-2.140

0.029*

부서

 

 

 

 

 

영업

-0.114

 

 

-0.921

0.214

생산

0.222

 

 

2.784

0.008**

경제스트

0.201

 

0.098

2.460

0.011*

직무스트

0.198

 

0.107

2.202

0.037*

환경스트

0.097

 

0.022

0.476

0.783

인간관계 스트

-0.101

 

-0.043

-0.187

0.097

조직문화

-0.221

 

0.134

3.457

0.003**

모형통계량

R

R2

수정 R2

F 값

p 값

0.400

0.160

0.132

34.532

0.000***

 

 

 

 

그럼 이야기를 계속 해 볼까요. 그래서 데이터에서 나온 추정식은

 

이직의도=0.123+0.178성별+(-0.202)학력+... 등 이렇게 나옵니다.

 

그래서 어떤 사람의 정보가 들어오면 즉 성별이 남자, 학력이 고졸이하, 부서가 영업, 경제스트레가 몇 점... 등등의 정보가 들어오면 이 사람의 평균적인 이직의도 정도를 알 수 있다는 것이죠. 앞에서 이야기 했지만 회귀계수들은 일차 직선의 기울기로 생각하시면 됩니다. 즉 x 값이 1단위 증가할 때 이직의도가 Likert형 5점 척도에서 얼마나 올라가나 아니면 내려가나를 나타내는 값이라 생각하시면 됩니다.

 

 

 

1. 일단 상수항은 중요하지 않습니다.

 

상수항은 독립변수가 x가 모두 0인 경우, 즉 y 절편 값입니다. 통상 이론적으로 중요한 의미가 있는 경우가 아니면 관심을 둘 필요가 없습니다. 예외적으로 시계열에서

 

Y(t) = u+Y(t-1)

 

이런 모양이 나오는데 이 경우 상수항 u는 drift라고 해서 중요한 의미를 갖습니다. 식을 바꾸면

 

Y(t)-Y(t-1)=u

 

가 되어 한 시점이 지나갈수록 u 만큼 올라간다든지, 내려간다든지 하는 값입니다. Y(t)를 주식가격이라 하면 일정 한 단위 시기별 주가 상승폭이 되겠죠. 이것도 사실 t에 관한 회귀분석 모양으로 돌리면

 

Y(t)=b0+ut

 

형태로 되어 사실 u는 독립변수 t 앞에 붙는 회귀계수, 즉 기울기가 됩니다.

 

 

2. 표준회귀계수

 

이건 종속변수인 이직의도와 독립변수들을 전부 표준화해서 새로운 데이터를 만든 후 다시 회귀분석을 돌린 결과입니다. 표준화 된 새 이직의도와 표준화 된 새 독립변수를 가지고 회귀분석을 한 것이죠. 여기서 표준화는 평균이 0. 표준편차가 1로 만든다는 것이죠. 예를 들어 이직의도의 경우 설문대상 200명의 이직의도에서 그 평균과 표준편차를 구한 다음 다음 각 사람의 이직의도 값에서 이 평균값을 뺀 다음 다시 표준편차로 나눠 줍니다. 그럼 새 이직의도 변수는 평균이 0이고 표준편차는 1로 됩니다. 이 경우 회귀분석에서 상수값은 이론적으로 0이 됩니다.

 

그럼 왜 이렇게 할까요? 컴퓨터 계산상 이로운 점이 많습니다. 이건 아실 필요가 없고요. 둘째는 사회과학에서 독립변수들 중에 어떤 변수가 이직의도에 가장 영향을 미치는 변수인가를 알고 싶어 한다는 것이죠.

 

처음에 있는 비표준 회귀계수를 가지고는 판단할 수 없습니다. 척도가 다 다르기 때문이죠. 앞에서 키와 몸무게의 경우 키를 m로, 몸무게를 g으로 측정하는 경우와 키를 mm로 몸무게를 Kg으로 측정하는 경우 비표준 회귀계수가 완전히 다르게 나옵니다. 그래서 비표준 회귀계수의 절대치만을 봐서는 안된다는 것이죠. 그래서 나온 것이 원래 옆에 있는 표준오차(standard error)입니다. 비표준 회귀계수를 표준오차로 나눠 일정한 기준으로 만든 것이 t 값의 아이디어입니다.

 

표준오차란 회귀계수 b의 표준편차를 이야기 합니다. 여기서 심각하게 헷갈리죠. 예를 들어 성별의 경우 b=0.178로 하나의 값으로 나왔는데 분포도 아니고 여기서 어떻게 표준편차를 구하나는 것이죠. 이 문제는 다음 글에 쓰기로 하고 계속 공부나 연구를 하실 분이 아니면 고민할 필요가 없습니다.

 

이렇게 t 값을 볼 수도 있고, 아예 척도를 표준화해서 볼 수도 있습니다. 이렇게 척도를 표준화해서 볼 경우 이 때 회귀계수는 다음과 같이 해석됩니다.

 

예를 들어 경제적 스트레스 b=0.098로 나왔는데 이건 경제적 스트레스가 1 시그마, 즉 한단위 표준편차로 증가했을 경우 이직의도는 0.098 시그마, 즉 0.098*표준편차 증가한다는 이야기입니다. 그래서 위의 결과만 보면 조직문화가 0.134로 가장 큰 영향력이 있었고, 그 다음으로 직무스트레스가 0.107, 경제스트레스가 0.098의 순으로 영향력이 크다고 이야기 할 수 있습니다.

 

경제학에서는 탄력성 개념을 많이 사용합니다. 예를 들어 Y=b0+b1*X라는 회귀분석 모형이 있을 때 이때 표준화 대신 log을 취해서 회귀분석을 돌립니다. 즉 모형은

 

log(Y)=b0+b1*log(X)

 

이때 나온 회귀계수 b1은 탄력성 개념이 됩니다.

 

일반적으로 표준회귀계수가 커지면 t 값이 커지고, 또 반대로 p 값이 떨어집니다. 그래서 구태여 표준회귀계수를 사용할 필요가 있을가 라는 생각도 듭니다. 더구나 지금의 예에서는 스트레스와 조직문화가 전부 Likert 5점 척도로 척도가 같습니다. 이럴 경우 표준회귀계수는 거의 필요가 없다고 봐도 됩니다. 하여간 개념이 좀 다른데

 

하나는 독립변수가 종속변수를 얼마나 잘 설명하는가 하는 문제이고(설명력)

하나는 독립변수가 평균적으로 종속변수를 얼마나 잘 올릴 것인가, 떨어뜨릴 것인가(영향력)

 

하는 차이인데 이건 다음에 한번 써 볼게요. 기존의 통계학 책에서는 안 나오는 것 같은데 저도 더 이상 공부를 하지 않아서 정리가 안되어 있는 상태입니다.

 

 

 

3. 상관계수 R

 

이건 종속변수인 이직의도와 측정된 회귀식 즉 0.123+0.178성별+(-0.202)학력+...간의 상관계수를 이야기 합니다. 원래 정확하게는 독립변수들의 모든 선형결합식과 이직의도간의 상관계수의 최대값인데 단순하게 이해하면 우리 모형의 오른 쪽에 있는 추정식은 종속변수인 이직의도와 가장 큰 상관관계를 이루게 한다고 생각하시면 됩니다. 이 R 값은 구태여 표에 넣을 필요는 없습니다.

 

 

 

 

4. 결정계수 R2

 

이건 표기에도 알다시피 상관계수의 제곱이고 이걸 결정계수라 합니다. 흔히 통계학에서는 상관계수는 r로 많이 표시합니다.

 

이것의 의미는 우리의 데이터가 주어진 모형에 얼마나 잘 적합한가를 알려주는 값입니다. 정확하게는 종속변수 변동 중에서 독립변수가 설명하는 변동의 정도로 해석됩니다. 이건 다음 글에서 간단한 예를 들어서 한번 설명할까 합니다. 이게 분산분석이거든요.

 

상관계수에서도 이야기 했지만 키와 몸무게에서 직선관계를 보는데 키와 몸무게가 일직선상에 거의 일치하여 있으면 상관계수가 높게 나오고 전반적으로 직선 모양이지만 직선 근처에 널리 펴져 있으면 상관계수가 낮아집니다. 이것도 마찬가지입니다. 단지 독립변수가 여러개 있어도 어렵게 느껴지는 것이죠.

 

완벽하게 일직선이 되는 경우는 결정계수 값이 1이 됩니다. 상관계수 값의 제곱이니까 당연하겠죠. 이런 경우는 설문 응답자 수와 독립변수의 개수가 같으면 이런 현상이 일어납니다.

이렇게 결정계수는 독립변수의 숫자가 늘어날수록 결정계수가 값이 항상 올라가는 경향이 있다는 것이죠.

 

이게 무슨 의미가 있냐고 하면 결정계수 값을 보고 우리가 세운 회귀모형식이 좋다, 나쁘다 이야기 하기 곤란하다는 것이죠. 왜냐하면 아무런 관련 없는 변수를 무조건 집어 넣기만 해도 더 좋은 모형이라고 결론이 난다는 것이죠.

 

즉 종속변수와 우리가 고려한 독립변수간에 적합도가 높으면 좋습니다. 그러나 무조건 이 기준으로만 가지고 좋은 모형이다, 아니다라고는 판단을 못한다는 것입니다. 그러나 이 결정계수 값이 너무 낮으면 문제가 있다는 것이죠. 불행하게도 사회과학 현상에서는 이 값이 낮게 나오는 경향이 많습니다.

 

예를 들어 결정계수가 0.16으로 나왔다면 종속변수의 변동 중 우리의 모형에 있는 독립변수들이 설명하는 변동의 비중이 16%라는 것입니다. 그리고 84%는 전혀 설명을 못한다는 것이고요. 그러나 너무 비관적으로 볼 필요는 없습니다. 결정계수가 0.16이면 상관계수는 0.4입니다. 상관계수의 제곱이 결정계수이니까요. 상관계수 0.4는 상당히 높은 것입니다.

 

하여간 이런 독립변수의 개수가 늘어남에 따라 결정계수가 올라가는 단점 때문에 이걸 해소하기 위해서 나온 것들이 있습니다. 옆에 있는 수정(조정) 결정계수가 그 하나고 또 멜론의 Cp 값도 있고요. 하여간 이 결정계수는 회귀분석에서 가장 기본적이고 고전적인 값이기 땜문에 표에 넣는 것이 좋습니다.

 

 

 

5. F 값

 

이것은 모형의 유의성을 알아보는 것입니다. 원래 정확하게는

 

 

귀무가설 H0=모든 회귀계수 b는 0이다=모든 독립변수는 이직의도에 영향력이 없다

 

대립가설 H1=최소한 하나의 회귀계수 b는 0이 아니다=최소한 하나의 독립변수는 이직의도에 영향을 미친다.

 

이 가설을 검증하는 것입니다. 그래서 p 값에서 *가 붙어 있으면 최소한 하나의 변수는(어떤 변수가 유의적인 영향력이 있는지는 말하지 않습니다) 이직의도에 영향력이 있다는 것입니다.

 

그래서 p 값에서 유의적이지 않으면 이 모형은 아예 쳐다 볼 필요도 없이 쓰레기 통으로 가는 것이죠. 당연히 대부분 분석에서는 F 검증에서 유의적, 즉 대립가설 H1를 받아 드립니다.

 

이것도 앞의 동시추론의 문제와 같이 이 F 검증을 통과해도 위의 각 독립변수별로 한 t 검증에서는 유의적인 독립변수가 하나도 안 나올 수 있고, 이 F 검증을 통과하지 못해도 가끔 t 검증을 통과한 독립변수가 나오기도 합니다.

 

 

 

다음은 가장 간단한 숫자의 예를 만들어서 위에서 이야기 한 내용을 구체적으로 한번 시도해 보고 진짜 회귀모형을 이해해 보도록 하겠습니다. 앞으로 연구나 공부하실 분 아니면 다음 편은 보실 필요가 없습니다.