회귀분석/회귀분석,Regression

회귀분석의 오해와 잘못 이해하고 있는 점2

학위논문통계 2014. 6. 20. 08:45

 

 

일단 통계 전공하시는 분이나 학계에 나가 앞으로 통계를 많이 사용할 것 같은 분이나 아니면 통계를 직접 다루지는 않지만 관련 논문을 읽어야 할 경우가 많은 분들은 다음 데이터 파일을  다운 받아 SPSS에서 한번 직접해보시기 바랍니다. t, F 이런 값들이 정확하게 어떤 의미가 있는지 한번 알아보시고요. 직접해보는 것이 중요합니다.

 

 

 

아래 데이터를 엑셀형태로 첨부했습니다. SPSS를 구해서 open 하면 저절로 SPSS 데이터로 전환시켜 줍니다. 5번째 사람은 키에서 결측값이 있습니다. 그래서 SPSS에서 기본으로 상관계수나 회귀분석시 이 키에 관련된 분석은 5번 사람은 제외한 9명을 대상으로 분석을 합니다. 그러나 허리둘레와 몸무게 같이 결측값이 없는 경우는 상관계수나 회귀분석시 10명 전부 다 데이터로 사용합니다.

 

 

 

키와 허리둘레가 몸무게에 어떤 영향을 미치는지 보는 것입니다. 물론 가짜 데이터입니다. 간단하게 10명분만 가짜로 만들어 봤습니다. 그래서 여려가지 상황에 대해서 구체적으로 알아보겠습니다. 여러 가지 상황에서 표에 있는 값들의 관계를 잘 추적하시기 바랍니다. 좋은 공부가 될 겁니다.

 

 

 

Id

성별

허리둘레

몸무게

1

1

173.3

35

70.48

2

2

168.4

29

63.25

3

2

160.19

25

52.15

4

1

177.45

29

63.28

5

1

 .

28

53.27

6

2

160.11

32

57.72

7

1

174

29

63.28

8

2

164.12

27

56.22

9

2

158.31

25

47.11

10

1

183.22

28

72.31

 

 

 

 

 

 

 

 

 

1. 상관관계

 

 

변수

성별

허리둘레

몸무게

성별

1

 

 

 

(.)

 

 

 

-0.890

1

 

 

(0.001***)

(.)

 

 

허리둘레

-0.384

0.323

1

 

(0.273)

(0.362)

(.)

 

몸무게

-0.603

0.888

0.642

1

(0.065)

(0.001***)

(0.046*)

(0)

 

 

 

a) 성별은 남자는 1, 여자는 2로 코딩되어 있습니다. 따라서 성별과 키의 상관관계가 -0.890으로 음수가 나왔다는 이야기는 남자에서 여자로(즉 숫자가 적은곳에서 높은 곳으로 갈 때) 키가 줄어든다는 이야기입니다.

 

 

 

b) 연구대상자가 10명 밖에 되지 않아 상관계수 값이 꽤 높게 나온 경우, 즉 키와 허리둘레의 경우 r=0.323인데도 불구하고 유의적이지 않다고 나왔습니다. 즉 키와 허리둘레는 서로 상관관계가 있다고 믿지 못하겠다는 이야기입니다. 만약 설문대상자가 100명 정도만 되어도 이 정도 상관계수 값은 매우 뚜렷한 상관관계가 있다고 나올 것입니다.

 

 

 

 

 

 

2. 단순회귀분석

 

 

<표 1>

변인

키=>몸무게

허리둘레==>몸무게

표준

회귀계수

t 값

p값

표준

회귀계수

t 값

p값

상수

 

 

 

 

 

 

독립변수

0.888

5.119

0.001***

0.642

2.365

0.046*

R2

0.789

0.412

F 값

26.202

5.595

p 값

0.001***

0.046*

 

 

 

a) 여기서는 단순회귀분석, 즉 독립변수가 하나가 들어간 회귀분석입니다. 왼쪽이 독립변수가 키, 오른쪽이 독립변수가 허리둘레입니다. 여기서는 표준회귀계수를 적었습니다. 그 이유는 위의 상관계수 분석과 같은 분석이라는 것을 보여주기 위해서입니다. 키와 몸무게의 상관계수를 보시고, 그리고 p 값을 비교해보기 바랍니다. 똑 허리둘레와 몸무게의 상관계수와 p 값을 보시고 여기 회귀분석에서는 회귀계수와 p 값을 보시기 바랍니다. 완전히 일치하지요. 그래서 상관계수 분석이랑 단순회귀분석이랑 사실상 같은 분석입니다.

 

그리고 결정계수 값을 보기 바랍니다. 이 값은 독립변수와 종속변수의 상관계수 값의 제곱이라고 했습니다. 그리고 상관계수는 여기서 표준회귀계수 값과 같다고 했습니다. 그래서 0.888^2=0.789, 0.642^=0.412가 나오게 됩니다.

 

 

b) F 값은 t 값의 정확하게 제곱한 것입니다. 왼쪽에 5.119^=26.202, 오른쪽에 2.365^2=5.595, 그리고 p 값도 정확하게 일치합니다. 그래서 독립변수의 t 검증과 밑의 F 검증은 사실상 똑같은 가설을 검증한 것임을 알 수 있습니다. 구체적으로

 

 

 

귀무가설: b1=0

대립가설:b1=0이 아니다.

 

 

 

c) 표준회귀계수는 독립변수와 종속변수를 표준화 변수로 바꾼 다음 회귀분석을 한 것입니다. 이 경우 상수항, 즉 Y 절편은 항상 0이 됩니다.

 

 

 

 

 

3. 다중회귀분석

 

 

 

1) 키와 허리둘레가 독립변수

 

<표 2>

변인

회귀계수

t 값

p 값

상수항

-88.965

-5.305

0.002

0.710

6.851

0.000***

허리둘레

1.033

3.636

0.011*

R2

0.934

F

42.589

p

0.001***

 

 

 

 

a) 이번에는 키와 허리둘레 2개를 독립변수로 한 회귀분석 결과입니다. 독립변수가 더 추가되면 설명력이 줄어들어 유의적으로 나오지 않을 가능성이 높다고 이야기했지요. 그러나 허리둘레가 몸무게에 미치는 영향을 오히려 유의성이 더 높아졌습니다.

 

 

 

단순회귀에서는 p 값이 0.046이었는데 여기 키와 같이 독립변수로 들어갔을 때는 p 값이 0.011로 오히려 p 값이 줄어들었습니다. p 값이 작으면 작을수록 유의성이 뚜렷한 것입니다. 즉 영향력이 더 뚜렷하게 나타난 것을 의미합니다. 이렇게 독립변수를 추가한다고 해서 꼭 유의성이 낮아지는 것은 아닙니다. 그러나 경험상 독립변수가 많아지면 일반적으로 유의성이 떨어집니다.

 

 

독립변수가 5개인 경우 종속변수와 상관관계 분석에서는 모두 종속변수와 유의적인 상관관계가 나와도 회귀분석을 하면 대부분 독립변수 5개 중 2-3개 정도만 유의적인 영향력이 있다고 나옵니다. 5개 전부다 유의적으로 나오면 논문 조작 가능성이 99%입니다. 이렇게 나오려면 독립변수들간에 상관계수가 거의 0에 가까운 경우만 생깁니다(탐색적 요인분석을 해서 요인점수를 독립변수로 하였을 경우 이런 상황이 벌어집니다).

 

 

 

b) 독립변수가 많아지면 개별 독립변수가 종속변수를 설명하는 정도는 낮아집니다. 이 설명력을 보통 회귀분석에서 SSR이라고 합니다. 분산분석(ANOVA)에서는 BSS로 많이 사용합니다. 집단간의 변동 이렇게 설명하죠. 같은 개념입니다. 하여간 SSR은 분산분석표를 보면 회귀식에 의한 제곱합 이런 식으로 설명되어 있습니다. 즉 독립변수가 늘어나면 각 개별 독립변수의 SSR은 줄어듭니다. 그러나 한편으로는 독립변수가 늘어나면 오차(잔차)제곱합 SSE도 줄어듭니다. 그래서 SSR이 줄어드는 정도와 SSE가 줄어드는 정도와 서로 비교를 해야 합니다. 여기서 또 자유도까지 고려해서 평균 제곱합을 구해 F=MSR/MSE 검증을 하게 되는 것이죠.

 

 

 

즉 분자의 SSR이 줄어드는 정도, 분모의 SSE가 줄어드는 정도, 여기서 표본수 n과 독립변수 개수 k 등 자유도를 고려해서 유의성이 더 높아지는지 낮아지는지 결정된다는 것이죠. 좀 복잡하죠.

 

 

 

c) 표에 있는 F는 뭘 검증하는 통계량일까요? 이건 가설

 

 

 

귀무가설: b1=b2=0 즉 키도 몸무게에 영향을 미치지 못하고 “또” 허리둘레도 키에 영향을 미치지 못한다.

 

 

대립가설: b1과 b2 중 최소한 하나는 0이 아니다. 둘 다 몸무게에 영향을 미칠수도 있고, 키만 영향을 미칠수도 있고, 허리둘레만 영향을 미칠 수도 있는 경우입니다.

 

 

 

b1와 b2, 즉 키와 허리둘레라는 두 개의 독립변수를 한꺼번에 가설검증하는 것입니다. 그래서 F 검증에서 유의적이라고 해서 개별 독립변수를 검증하는 위의 t 검증에서 꼭 유의적으로 나오지도 않고, F 검증에서 유의적이지 않아도 위의 t 검증에서는 유의적으로 나올 수 있습니다.

 

 

이건 분산분석의 F 검증과 사후검증과의 관계가 같습니다. 분산분석의 F 검증은 연령별, 학력별, 또는 직업별, 종교별로 종속변수가 차이가 있다는 것을 검증하는 것이고 사후검증은 변인의 범주간의 개별적으로 차이가 있는지 검증하는 것입니다.

 

 

 

 

2) 단계적 회귀분석

 

 

아래 표는 단계적으로 회귀분석을 한 결과입니다. SPSS 메뉴에 독립변수 설정하는 곳에 처음에 키를 독립변수로 설정하고 next를 누른 다음 허리둘레를 추가적으로 독립변수로 선택하면 됩니다. 그리고 통계량 메뉴에서 결정계수 변화를 선택하시기 바랍니다.

 

 

<표 3>

변인

1단계

2단계

회귀계수

t 값

p값

회귀계수

t 값

p값

상수항

-79.831

-2.905

0.023

-88.965

-5.305

0.002

0.832

5.119

0.001***

0.710

6.851

0.000***

허리둘레

 

1.033

3.636

0.011*

모형통계량

R2

0.789

0.934

F

26.202(0.000***)

46.736(0.000***)

dR2

 

0.145

dF

 

13.223(0.011*)

 

 

a) 2단계에서는 키와 허리둘레 두 변수가 독립변수로 들어가기 때문에 위의 표 값과 일치합니다. 그래서 이 분석에서 의미있는 값은 설명력의 증가량인 dR2 와 이에 대한 유의성 검증인 dF입니다. 허리둘레가 단독으로 들어간 경우 <표 1>의 결정계수 값을 보면 허리둘레의 설명력은 0.412로 종속변수의 41.2%를 설명합니다. 그러나 여기서 키와 들어간 독립변수로 들어간 다음 추가적으로 허리둘레가 들어갔을 때 설명력의 증가는 0.145로 14.5%에 불과합니다.

 

허리둘레 단독의 설명력은 41.2%인데 키와 같이 들어갔을 때는 14.5% 설명력밖에 없습니다. 이 설명력 증가에 대한 유의성 검증인 d F=13.223으로 p값은 0.011입니다. 그런데 이 d F 값은 위 허리둘레의 t 값인 3.636의 제곱값이고 또 p 값도 0.011로 일치합니다. 즉 dF 검증과 위 허리둘레 t 검증과 똑같은 가설을 검증한 것입니다.

 

 

 

 

귀무가설 b2=0,

 

 

대립가설 b2=0이 아니다

 

 

 

이건 또 다르게 볼 수도 있습니다. 회귀분석에서 개별 독립변수의 t 검증은 독립변수 단독과 종속변수와의 관계를 보는 것이 아니라 해당 독립변수를 제외한 다른 독립변수가 모형에 들어간 후 추가적으로 설명력이 있는가 없는가를 검증하는 것이라는 것이죠. 즉, 회귀분석에서 독립변수가 종속변수에 유의적인 영향력이 있는가 없는가 검증하는 것은 항상 “추가적인 영향력”을 이야기 합니다. 그래서 회귀분석 책에서 partial 이라는 말을 많이 씁니다.

 

 

 

이것 축구랑 비슷합니다. 베스트 11을 뽑는데 이미 10명은 확정되어 있습니다. 나머지 한 선수를 선택하는데 있어서 우리는 10명이 이미 들어간 있는 상태에서 추가적인 팀 공헌도를 고려해 선수를 뽑는다는 것이죠. 개별적으로 아무리 능력이 좋다고 해도 이미 들어간 있는 10명의 선수와 궁합이 맞지 않으면 오히려 팀 성적에 악영향을 미칠 수 있습니다. 회귀분석도 마찬가지입니다. 다른 독립변수가 이미 모형에 들어가 있는 상황에서 이 독립변수가 추가적으로 종속변수를 얼마나 잘 설명하는가 이런 것을 검증한다는 것이죠.

 

 

 

b) 문제

위에서는 키를 먼저 투입하고 나중에 추가적으로 허리둘레를 투입하였을 경우 결정계수(설명력)의 증가를 구했습니다. 이번에는 반대로 허리둘레를 먼저 투입한 다음 2차에서 키를 투입하고 키를 추가적으로 투입함에 따른 설명력을 증가를 구해봅니다.

 

그럼

 

 

 

(허리둘레의 추가적 설명력+키의 추가적인 설명력)=표2와 표3에 2단계에 나오는 키와 몸무게가 같이 설명하는 설명력 93.4%)

 

 

 

이렇게 될까요? 이렇게 되지 않습니다. 불행하게 설명력은 칼로 무짜르듯이 독립변수에 의해 딱딱 잘라지지 않습니다.

 

 

 

 

 

 

 

4. 성별을 통제변수로 할 경우

 

 

<표 4>

변인

1단계

2단계

회귀계수

t 값

p값

회귀계수

t 값

p값

상수항

79.385

13.093

0.000

-158.816

-4.496

0.006

통제변수

성별

-12.048

-3.245

0.014*

6.436

2.134

0.086

독립변수

 

1.035

5.990

0.002**

허리둘레

1.210

5.044

0.004**

모형통계량

R2

0.601

0.966

F

10.529(0.014*)

46.736(0.000***)

dR2

 

0.365

dF

 

26.493***

 

 

 

 

a) 이번에는 통제변수를 1단계에 투입하고 2단계에는 키와 허리둘레 두 개를 추가적으로 독립변수로 투입했습니다. 그러면 d F는 도대체 무슨 가설을 검증하는 통계량일까요? dR2 가 처음에 성별을 투입한 후 (키와 허리둘레)라는 두 개의 변수가 추가적으로 하는 설명력을 의미하므로 dF는 다음과 같은 가설을 검증하는 것입니다.

 

 

 

 

귀무가설: b2=b3=0, 즉 키도 몸무게에 영향이 없고 “또” 허리둘레도 몸무게에 영향을 없다(여기서 b1는 성별의 회귀계수를 의미하고 b2는 키의, b3는 허리둘레의 회귀계수를 의미합니다)

 

 

대립가설: b2와 b3 중 최소한 하나는 0이 아니다.

 

 

 

 

앞의 표 2에서 설명한 바와 같이 이 dF 검증이 유의적이라고 해서 위의 t 검증이 모두 유의적으로 나오는 것도 아니고, 또 검증이 유의적이지 않게 나와도 위의 t 검증이 유의적으로 나올 수 있습니다. 통상 이런 경우는 p 값이 유의수준가 비슷할 경우 흔히들 생겨납니다.

 

 

 

b) 1단계에서 성별만 독립변수로 회귀분석을 했을 경우 b=-12.048이 나왔습니다. 성별이 어떻게 코딩되었는지 꼭 기억해야 합니다. 남자는 1, 여자는 2로 코딩되어 있습니다. 그래서 남자에서 여자로 갈 때 즉, 1에서 2로 갈 때 키가 12.048 줄어든다는 이야기입니다. 즉 남자가 여자보다 평균적으로 키가 12.048 크다는 이야기입니다. 상식적으로 맞죠. 이 결과는 성별을 변인으로 하여 통상하는 t 검증을 할 때와 결과와 정확하게 일치됩니다.

 

 

 

그러나 키와 몸무게가 같이 투입된 2단계에서는 성별의 회귀계수가 6.436으로 여자가 남자보다 키가 크다는 결과가 나옵니다. 이 분석이 맞는 분석일까요?

 

 

 

한가지는 다중공선성 문제가 생겼을 가능성이 있습니다. 상관분석을 보면 성별과 키와의 상관계수가 매우 큽니다. 이런 문제가 아니고 정상적으로 제대로 된 분석이라면 이런 현상을 어떻게 해석해야 할까요? 이건 이렇게 해석합니다. 키와 허리둘레가 비슷한 사람만 연구대상으로 생각합니다. 이 경우 여자가 남자보다 몸무게가 더 크다는 이야기입니다. 즉 남자가 여자보다 몸무게가 더 크게 나오는 것은 키가 크고, 허리둘레가 커서 그런 것이지 카와 허리둘레가 비슷한 사람으로 한정하면 오히려 여자가 남자보다 몸무게가 더 무겁게 나온다는 것이죠. 물론 이건 가짜 데이터이기 때문에 실제는 그렇지 않을 겁니다.

 

 

 

문제는 이런 현상이 다중공선성에서 생긴 문제인지 아니면 정상적으로 나온 결과인지, 그래서 문제를 더 세부적으로 고찰하고 조사해야 하는 문제인지 구별이 안된다는 것이죠.

 

 

 

하여간 여기서는 키와 허리둘레가 몸무게에 미치는 영향을 조사하기 위해 성별을 통제변수로 하고 연구대상 변수를 키와 허리둘레로 했습니다. 이와 반대로 키와 허리둘레를 통제로 하고 순수한 성별과 키와의 관계를 보기 위해 공변량 분석을 했다고 하죠 그럼 어떤 결과가 나올까요? 똑 같은 결과가 나옵니다. 아래 공변량 분석을 한 결과를 보죠.

 

 

 

5. general linear model 공변량 분석

 

 

변인

회귀계수

t 값

p 값

상수항

-145.943

-4.894

0.004

성별

(남자=1, 여자=0)

-6.436

-2.134

0.086

1.035

5.990

0.002**

몸무게

1.210

5.044

0.004**

 

 

 

위 표는 공변량 분석을 한 것입니다. 상수항이 다르고 성별에서 회귀계수 값의 부호만 바뀌었지 모둔 값이 위의 <표 4>의 2단계와 정확하게 일치합니다. 그래서 말만 다르지 회귀분석 모형은 똑 같은 모형입니다.

 

 

 

상수항이 다르고 성별의 회귀계수의 부호가 달라진 것은 일반선형모형에서는 SPSS가 남자=1, 여자=0으로 코딩했기 때문입니다. 즉 여자가 번호가 낮고 남자가 번호를 높게 했기 때문에 회귀계수 값의 부호가 바뀌고 상수항도 값이 달라졌습니다.

 

 

 

b) 위 결과값을 얻으려면 SPSS 메뉴에서 통계량인가 옵션인가에서 모수추정을 체크해야 하고 모형에서 Full 모형이 아닌 주효과만 선택해야 합니다. Full 모형을 하면 여러 가지 상호작용항도 회귀분석 모형에 들어가 위 보다 훨씬 복잡한 모형이 됩니다.

 

 

 

 

 

 

 

 

 

 

wtdata.xls

wtdata.xls
0.01MB

'회귀분석 > 회귀분석,Regression' 카테고리의 다른 글

회귀분석 문제점이나 질문 사안에 대한 답  (0) 2022.02.16
회귀분석 해석 궁금증1  (0) 2021.09.30
회귀분석3  (0) 2013.03.17
회귀분석2  (0) 2013.03.16
회귀분석1  (0) 2013.03.15