혼합모형(Mixed Model)/패널회귀분석

고정효과모형(FEM)1

학위논문통계 2019. 4. 7. 15:31

지난번에 미국의 4개 회사의 20년간 투자와 기업가치, 그리고 자본금 규모의 데이터를 소개했습니다. 이 데이터를 가지고 다양한 패널 회귀분석 모형을 시도해 보겠습니다.

 

 

1. 고전적인 회귀분석

 

시계열을 완전히 무시하고 그냥 흔한 다중회귀분석을 실시한 결과입니다. 그래서 모형식에는 시간을 나타내는 첨자가 없습니다. 그래서 모형식을 쓰면

 

투자액= + *기업가치+ *자본금규모

 

이렇게 됩니다. 그래서 데이터를 가지고 모수인 계수를 추정하면 다음과 같은 결과가 나옵니다.

 

 

 

 

t 값을 보면 각 회귀계수가 유의적인 양의 값이 나옵니다. 즉 회사가치가 커지거나 자본금이 늘어나면 그 기업의 투자도 유의적으로 상승한다고 볼 수 있습니다.

 

그리고 밑에 나오는 R2이 결정계수라고 하는 것인데 흔히 설명력을 말합니다. 즉, 기업가치와 자본금 규모가 투자액의 변동의 75.65% 설명한다고 말합니다. 이게 요새 미세먼저에서 중국요인이 몇 % 설명한다 할 때 나오는 값입니다. 그런데 이 결정계수는 변수가 더 추가될수록 무조건 늘어나는 경향이 있습니다. 즉 상대적으로 중국변수를 많이 넣으면 중국의 설명력이 높아지고 상대적으로 한국 변수를 많이 넣으면 한국의 설명력이 더 높아지는 약점이 있습니다. 여기서 약 75% 설명력은 엄청 높은 것입니다. 따라서 이 모형에 추가적인 독립변수를 더 넣어도 이 설명력은 크게 올라가지 않습니다. 또 D-W는 자기상관을 보는 것인데 이 데이터는 자기상관이 상당히 높은 것으로 나왔습니다.

 

    

 

2. 회사특성의 상수 고정효과모형(FEM:Fixed Effect Model)

 

이 모형은 더미변수를 사용한다고 해서 LSDV(Least Square Dummy Variable)모형이라 합니다. LS방법은 아주 옛날부터 공학에서 사용한 데이터에서 모수를 계산하기 위해서 사용한 방법이죠. Gauss가 천체학에서 처음 사용한 것으로 압니다.

 

앞의 모형에서는 상수항이 4개 회사가 전부 같다는 가정을 한 모형입니다. 그러나 이건 현실에 잘 안맞은 가정이죠. 측정할 수는 없지만 기업마다 기업문화가 다르고 CEO의 성향도 다르죠. 그래서 일단 회사마다 상수항, 즉 y 절편이 다르다는 가정을 한번 해보죠.

 

그럼 모형식은 다음과 같습니다.

 

투자액=( +b0)+ *기업가치+ *자본금규모


                          =( +b01*D1+b02*D2+b03*D3)+ *기업가치+ *자본금규모

 

즉 상수항에 고정효과 b0이 더 추가되었는데 이 b0은 사실상 3개의 더미변수, 이진변수로 구성되어 있습니다. 앞에서 대한한공과 아시아나 항공 등 2개 회사가 있으면 대한항공=0, 아시아나 항공=1로 된 더미변수 1개만 있으면 되지만 지금은 4개의 미국회사가 있으니까 3개의 더미변수 D1, D2, D3가 필요합니다. 예를 들어 실제 데이터 모양으로 표시하면 다음과 같습니다. 이 더미 코딩하는 방식을 잘 이해하시기 바랍니다. 통계소프트웨어 프로그램에서는 프로그램 안에서 계산할 때 자기들이 알아서 하기 때문에 대부분 일반인들은 실제로 자기가 이렇게 더미 코딩하는 경우가 없습니다. 그래서 이 더미변수 해석을 잘 못하는 경우가 많습니다.

 

 

Company

(응답대상)

회사

코딩

D1

D2

D3

Year

(시간)

Investment

(투자)

Firm

(회사가치)

Capital

(자본)

GE

1

0

0

0

1935

33.1

1170.6

97.8

GE

1

0

0

0

...

...

...

...

GE

1

0

0

0

1954

189.6

2759.9

888.9

GM

2

1

0

0

1935

317.6

3078.5

2.8

GM

2

1

0

0

...

...

...

...

GM

2

1

0

0

1954

189.6

2759.9

888.9

US

3

0

1

0

1935

 

 

 

US

3

0

1

0

...

 

 

 

US

3

0

1

0

1954

 

 

 

WEST

4

0

0

1

1935

 

 

 

WEST

4

0

0

1

...

 

 

 

WEST

4

0

0

1

1954

 

 

 

 

일단 회사는 GE=1, GM=2, US=3, WEST=4로 코딩되어 있습니다. 소프트웨어에서 데이터에 문자대신 숫자로 코딩하라는 요구하는 경우가 많습니다.

 

그럼 GE를 기저범주로 할 경우 GE=(0,0,0), GM=(1,0,0), US=(0,1,0), WEST=(0,0,1)로 세 개의 변수로 코딩합니다. 이 기저범주는 자기 마음대로 설정할 수 있습니다. GM으로 할 수 있고, US나 WEST로 설정할 수 있습니다. 통상 SPSS는 메뉴에서 기본사양으로 마지막 범주를 기저범주로 합니다.

 

그럼 D1변수는 GM=1, GM이 아닌 경우=0, D2변수는 US=1, US가 아닌 경우=0, D3변수는 WEST=1, WEST가 아닌 경우=0이 됩니다. 그럼 위식

 

투자액=( +b0)+ *기업가치+ *자본금규모


=( +b01*D1+b02*D2+b03*D3)+ *기업가치+ *자본금규모

 


에서 GE의 경우 (D1, D2, D3)=(0,0,0)이므로 위에 대입하면

 

투자액= + *기업가치+ *자본금규모

 

이 되므로 이 기저범주 GE의 상수, 즉 Y 절편값이 되고

 


GM의 경우 (D1, D2, D3)=(1,0,0) 대입하면

 

투자액=( +b01)+ *기업가치+ *자본금규모

 

이 됩니다. 즉 GM의 경우 Y 절편은 ( +b01)이 됩니다. 마찬가지로 US의 Y 절편은 ( +b02), WEST의 Y 절편은 ( +b01)가 됩니다.

 

그래서 실제로 통계프로그램 안에서 데이터를 어떻게 처리하는지 그리고 그 결과를 어떻게 해석하는지 이해가 되었을거라 봅니다.

 

실제 모형식에 회사 고정효과인 더미변수를 추가한 모형의 결과를 한번 보죠.

 

 

 

  그래서 GE의 상수항은 -245.7924, GM의 상수항은 -245.7924+161.5722 이렇게 계산이 됩니다.

 

  

사실 위의 두 모형은 요새 학위논문에 많이 쓰는 Baron & Kenny의 조절효과 검증에 나오는 위계적 회귀분석 모형과 같은 것입니다. 회사특성을 조절변수로 하면 한국에서 많이 요구하는 3단계 위계적 회귀분석 모형에서 2단계까지 한 것입니다. 마지막 3단계가 실제적인 조절효과를 보는 상호작용항이 있는 단계입니다. 이건 다음 시간에 다루겠습니다. 그래서 사실상 조절효과를 검증하려면 1, 2단계는 필요없고 오로지 3단계만 있으면 됩니다. 표로 쓰면


 

독립변수

1단계

2단계

B

S.E.

B

S.E.

상수

 

 

 

 

회사가치

 

 

 

 

자본금 규모

 

 

 

 

회사특성

 

 

 

 

D1

 

 

D2

 

 

D3

 

 

 


앞의 경우와 마찬가지로 t 값을 보면 모두 유의적으로 나왔습니다. 그리고 GE의 Y 절편은 매우 큰 음수로 나왔고, 거기에 더미변수의 계수 값을 더하면 각 회사의 Y 절편값이 나옵니다. 여기서 결정계수 R2 값이 0.9345로 매우 높게 나옵니다. 즉 이 회사더미 변수를 넣기 전의 고전적인 회귀분석에서는 R2는 0.7565로 나왔는데 이 모형에 회사의 특성을 나타내는 3개의 더미변수를 더 추가한 경우 0.9345로 상당히 많이 증가했습니다. 즉 회사의 특성변수, 3개의 더미변수가 추가로 인한 설명력의 증가는 (0.9345-0.7565)=0.178로 17.80% 증가하였습니다.


위 분석 내용이 다음을 이야기하는 것은 절대 아닙니다. 회사의 특성이 회사 투자의 성향의 17.8% 설명한다. 이 말은 틀린 말입니다. 앞의 모형에서 회사 가치와 자본금 크기 두 변수를 이미 넣었을 경우 추가적인 설명력을 말합니다. 회사 가치와 자본금 크기 대신 다른 설명변수, 독립변수를 넣으면 이 회사 특성의 추가적인 투자 설명력은 또 다르게 나오고, 또 회사가치와 자본금 크기를 넣었지만 이 2개 변수외에 다른 독립변수들을 더 넣은 경우 이 회사 특성의 투자 경향의 설명력은 또 다르게 나옵니다. 이 경우 17.80%보다 더 낮아집니다.

    

 

그럼 도대체 이 회사특성의 과학적 설명력은 얼마라는 이야기인가요? 이렇게 물을 수 있습니다. 답 없습니다. 최근 미세먼지의 중국 요인의 설명력에 대한 비판으로 잡소리 글에서 쓴 바가 있는데 이건 논리적으로나 기술적으로 불가능합니다. 이런 논리적, 기술적 문제로 인해 데이터를 조작하지 않고도 어느 정도 결과를 조작할 수 있습니다.

 

과학 결과를 너무 신봉해서는 안됩니다. 그럼 과학결과마저도 믿지 못하면 불안해서 어떻게 살 수 있나요 그렇게 반문할 수 있습니다. 걱정할 필요가 없습니다. 우리가 믿는 것은 시스템의 중요 부분, 큰 부분이고 우리가 제대로 파악하지 못하는 부분은 시스템이 작동하는데 크게 영향이 없는 사소한 부분에 해당합니다. 그래서 우리가 안심하고 차를 타고, 기차를 타고, 비행기를 탈 수 있다는 것이죠.

 

 

3. 시간 특성의 상수 고정효과 모형

 

시간에 따라서 기술발전도 있고, 여러 가지 정책적인 효과들이 있습니다. 따라서 Y 절편에 회사특성 대신 시간변화의 특성을 설정할 수 있습니다. 시간은 1935부터 1954년까지 20년 이니까 이걸 더미변수로 하면 19개 더미 변수가 생깁니다. 이걸 T1, T2, ..., T19로 하면 우리의 모형식은

 

투자액=( +b0)+ *기업가치+ *자본금규모

=( +b01*T1+b02*T2+...,+b019*T19)+ *기업가치+ *자본금규모

 

이렇게 됩니다. 즉 1935년은 (T1, T2, ..., T19)=(0,0,...,0), 1936년은 (T1, T2, ..., T19)=(1,0,...,0), 1937년은 (T1, T2, ..., T19)=(0,1,...,0) 이렇게 코딩됩니다.

 

지난번 잡소리에서 제가 신랄하게 비난한 논문이 있는데 한국은행에서 나온 최저임금이 고용에 부정적인 영향을 미친다고 보고한 논문입니다. 이 논문이 이 모형을 사용한 것입니다. 그 논문의 결과인데 여기서는 시간 T의 더미변수 결과는 생략한 것입니다.

 

 

  다음 시간에는 상수항뿐만 아니라 기울기도 회사특성이 들어가는 더욱 복잡한 모형을 설명하겠습니다. 이건 조절효과 검증하는 3단계 모형과 같은 모형입니다.