혼합모형(Mixed Model)/패널회귀분석

패널 회귀분석의 이해1

학위논문통계 2019. 4. 3. 13:05



오늘은 패널 회귀분석에 대해서 간단히 알아보기로 하죠. 패널회귀분석은 경제학에서 많이 사용하고 일반사회과학에서는 많이 사용하지는 않습니다. 따라서 패널 회귀분석을 제대로 하려면 eviews나 stata 같은 프로그램이 필요합니다.

 

1. 패널 데이터

 

패널 데이터는 시계열 데이터와 횡단자료 데이터가 합친 데이터를 말합니다. 즉 동일한 응답집단을 여러 시점에 걸쳐 추적해서 조사한 데이터를 말합니다. 동일한 응답집단은 일반 개인이 될 수 있고, 또 기업도 될 수 있고, 산업도 될 수 있습니다.

 

정부에서 조사하는 유명한 사회과학 자료로는 아동과 청소년을 추적하는 데이터가 있습니다. 아동과 청소년은 여러가지 주변 환경이나 사춘기 등 심리적 변화과정이 많기 때문에 시간의 변화에 따라 청소년의 상태가 어떻게 변화하는지, 가정, 학교, 교우 관계들이 어떤 영향을 미치는지 분석해야 할 것이 많거든요.

 

지난번 말썽이 많았던 통계청 자료는 엄밀한 의미의 패널 자료가 아닙니다. 동일한 성인을 10년동안 계속 사용하면 처음에는 최연소자가 20세인데 10년 후에서는 최연소자가 30세가 되어 10년 후에는 20대를 조사할 수 없거든요. 그래서 응답대상자를 업데이트를 해야 하는 불편함이 있습니다.

 

 

이 패널데이터는 pooled data, micropanel data, longitudinal data, cohort analysis, 사회과학에서는 repeated measure 등 다양한 이름으로 불리고 있습니다. 교육학에서 가장 많이 하는 실험효과를 보는 데이터가 가장 단순한 형태의 패널데이터로 볼 수 있습니다. 즉 동일한 실험집단과 통제집단에 대해 시간1=사전, 시간2=사후 이렇게 측정하는 것이죠.

 

 

여론조사때 패널조사를 하면 어떻게 될까요. 일단 설문조사할 때 일일이 전화를 할 필요가 없습니다. 처음에 설문응답자를 구하였기 때문에 이 사람들에게 메일을 보내거나 구글 등을 이용해 설문조사를 하면 되거든요. 무응답자를 걱정할 필요가 없다는 것이죠. 그래서 비용이나 시간을 많이 줄일 수 있습니다. 그러나 사람들이 지속적으로 응답을 할 수 있도록 여기에 대한 보상을 줘야 하겠죠. 그러나 전체적으로 보면 패널조사를 하면 똑같은 비용으로 지금보다 설문응답자 수를 훨씬 많이 늘릴 수 있다고 봅니다.

 

그럼 단점은 무엇일까요. 처음에 설문응답자 집단을 잘못 잡으면 통계 결과가 계속 틀린다는 것이죠. 지역, 성별, 연령별 할당을 잘해도 정치적 성향이 한쪽으로 기울어지게 표본을 추출했다면 잘못된 결과가 계속 나온다는 것이죠. 그러나 이렇게 편의(bias)가 존재해도 시간에 따른 변화는 알 수는 있죠.

 

 

패널 데이터는 두가지 데이터 배열 형식이 있습니다. 하나는 long format이고 또 하나는 wide format입니다. 아래 그림을 참조하시죠.






 

     

그림에서 id가 응답대상입니다. 이게 사람일 수도 있고, 기업, 산업, 또는 학교, 도시 등 다양하게 설정될 수 있습니다.

 

그래서 wide는 각 줄에 한 응답대상자의 시간에 따른 조사변수를 옆으로 쭉 늘리는 것입니다. 이에 반해 long은 한 응답대상자의 조사변수를 시간에 따라 밑으로 쭉 내리는 것입니다.

 

일반적으로 패널회귀분석은 long 형태로 데이터를 만들고 요즘 사회과학 박사과정 논문에서 많이 쓰는 잠재적 성장모형(AMOS에 있습니다)은 wide 형태로 데이터를 만듭니다. SPSS에서는 이 두가지 데이터 형태를 메뉴를 통해 전환시켜 줄 수 있습니다. 저는 S나 R에서 제가 프로그램을 짜서 바꾸지만요.

 

데이터에서 결측값이 없으면 balanced panel이라 하고 결측값이 있으면 unbalanced panel data라 합니다.

 

그리고 패널 회귀분석을 할 때 제일 먼저 응답대상이 무슨 변수인지, 시간변수가 무엇인지 먼저 설정을 해야 합니다. 그래서 eviews나 stata에서 지금 작업하려고 하는 데이터가 패널 데이터라는 것을 프로그램에서 미리 알려줘야 합니다.

 

 

 

2. 패널회귀분석

 

그럼 왜 패널회귀분석을 사용하는가? 패널회귀분석을 하지 않고 데이터를 그냥 전부 합쳐 전통적인 회귀분석을 하면 앞에서 이야기한 황당한 결과를 얻을 수가 있습니다. 지난번 예를 보죠. 두 항공사에서 고객수가 매출액에 미치는 영향에 관한 그림입니다.



또 회사, 국가, 학교, 도시 별 특징을 찾아 낼 수 있고, 또 시간에 따른 기술적 변화나 정책적 변화의 연구도 가능합니다. 또 통계 이론적인 관점에서 여러 가지 장점이 있을 수 있습니다.

    

 

그럼 가장 단순한 패널회귀분석의 모형식을 한번 보죠. 첨자에 주의해서 보시기 바랍니다.





  이 모형식과 앞에서 제가 보여준 일반적인 패널회귀모형식과 한번 비교를 해보죠




b0=0, b1=0인 경우입니다. 

 

여기서 우리는 다양하게 모형을 확장할 수 있습니다. 여기서 응답대상자는 사람, 기업, 국가, 학교, 도시 등이 될 수 있습니다.

 

1) 위 식에서는 오차항이 시간과 공간에 관계없이 일정한 것으로 가정하였는데 이 가정을 완화하여 시간과 응답대상자에 따라 다르다고 가정할 수 있습니다.

 

2) 기울기 계수는 같지만 상수항, 즉 y 절편은 응답대상자에 따라 달라질 수 있다.


즉 b1=0이지만 b0는 그대로 있습니다. 또 첨자는 응답대상자에 따라 달라지기 때문에 응답자를 표시하는 첨자 j가 붙습니다.  즉 b0j가 된다는 것이죠.

 

3) 기울기 계수는 같지만 상수항은 응답대상자와 시간에 따라 달라질 수 있다.

    

 즉 b1=0이지만 b0는 그대로 있습니다. 또 첨자는 응답대상자와 시간에 따라 달라지기 때문에 응답자를 표시하는 첨자 jt가 붙습니다.  즉 b0jt가 된다는 것이죠.


4) 상수항과 기울기 계수 모두 응답대상자에 따라 달라질 수 있다.


b0와 b1은 다 0이 아니고 살아 있습니다. 단 b0과 b1은 응답자 첨자가 붙어 b0j, b1j로 바뀝니다.

 

5) 상수항과 기울기 계수 모두 응답대상자와 시간에 따라 달라질 수 있다.


b0와 b1은 다 0이 아니고 살아 있습니다. 단 b0과 b1은 응답자와 시간 첨자가 붙어 b0jt, b1jt로 바뀝니다.



 

2)부터 5)까지는 번호가 클수록 모형이 더 복잡해집니다. 즉 nested 모형입니다. 물론 여기서 상수항은 시간과 응답대상자에 따라 일정하지만 기울기 계수는 시간과 응답대상자에 따라 달라질 수 있는 모형도 설정할 수 있습니다. 그러나 통상 이렇게 안하는데 왜냐하면 위의 방식이 조절효과 검증에 나오는 위계적 회귀분석 모형이기 때문입니다. 더 이야기하면 조금 복잡하고요. 잘 모르시는 분들은 model selection 이라는 것을 검색해서 한번 알아보세요.

 

다음은 미국의 4개 주요 기업과 그 기업들이 기업가치와 자본 크기가 투자에 미치는 영향을 조사하기 위해 1935-1954는 즉 20년에 걸쳐 조사한 자료입니다. 이 자료를 가지고 실제 위의 다양한 패널 회귀분석을 한 결과를 보여 주겠습니다.

     

     

이 자료를 실제 long 패널 데이터로 바꾸면 다음과 같이 됩니다.

 

Company

(응답대상)

Year

(시간)

Investment

(투자)

Firm

(회사가치)

Capital

(자본)

GE

1935

33.1

1170.6

97.8

GE

...

...

...

...

GE

1954

189.6

2759.9

888.9

GM

1935

317.6

3078.5

2.8

GM

...

...

...

...

GM

1954

189.6

2759.9

888.9

US

1935

 

 

 

US

...

 

 

 

US

1954

 

 

 

WEST

1935

 

 

 

WEST

...

 

 

 

WEST

1954

 

 

 

 


에서 이야기했지만 패널회귀분석하기 전에 응답대상자, 여기서는 company, 그리고 시간 즉 year를 먼저 지정을 해야 합니다.

 

 

다음에는 실제 위 데이터에서 나온 결과물을 한번 보시죠.

 

 

 

 

 


'혼합모형(Mixed Model) > 패널회귀분석' 카테고리의 다른 글

고정효과와 확률효과모형 비교.  (0) 2019.08.13
최소제곱법의 이해  (0) 2019.06.04
panel3, 내포와 위계모형  (0) 2019.04.15
고정효과모형(FEM)1  (0) 2019.04.07