혼합모형(Mixed Model)/패널회귀분석

고정효과와 확률효과모형 비교.

학위논문통계 2019. 8. 13. 16:37




이 글은 제가 지난번 의뢰 받았을때 의뢰인을 위해 본문에 삽입할 내용을 적은 것입니다. 그래서 여기에 쓰인 글을 그대로 쓰면 표절에 걸린

가능성이 많습니다. 따라서 이 글에다 계량경제책에 나오는 내용을 조금 더 첨가해서 논문에 쓰기 바랍니다.





패널자료(panel data)는 특정시점에서 조사한 횡단자료(cross-sectional data)와 시계열 자료(time series data)가 결합된 형태의 자료를 말한다. 따라서 패널자료에는 패널그룹과 시간이 변수로 특정되어 있어야 한다. 패널 그룹에는 연구 대상에 따라 회사, 지역, 국가, 또는 개인 등 될 수 있다. 패널 그룹의 수가 n이고 측정 시간이 T이면 전체 자료 수 N=n*T가 된다. 특히 패널 자료에서 결측값이 없는 경우, 즉 각 패널 그룹에서 모든 시간에서 변수가 다 측정되어 있는 경우를 균형패널자료(balanced panel data)라 하고 결측값이 있는 경우 불균형패널자료(unbalanced panel data)라고 한다. 또 n>>T인 경우 micro data라 하는 반면 T>>n인 경우 macro data라 한다.


패널 자료를 회귀분석을 할 경우 가장 많이 사용되는 방법은 3가지가 있다. 첫째는 회귀분석에서 일반적으로 가장 많이 사용되는 OLS 방법을 사용하는데 이를 통합 OLS(Pooled OLS)라고 한다. 두 번째는 패널의 성격을 고려하여 패널 그룹의 특성을 고려하는 방법인데 이 경우 관찰되지 않는 패널 그룹의 특성을 확률변수로 인식하지 않고 고정된 상수값으로 인식하는 고정효과(Fixed Effect) 패널 회귀분석이 있다. 이 고정효과 패널 회귀분석에는 다시 패널 그룹의 특성을 이진 더미변수로 처리하여 OLS를 적용하는 방법이 있고, 또 평균을 이동하는 Within Estimation, 시차를 구해 추정하는 Time-demeaned estimation 방법이 있다.


 

1) Pooled OLS(Ordinary Least Square) 방법

 

모형이 다음과 같다고 가정하면

 

 

여기서 는 종속변수, 는 독립변수, 는 오차항으로 서로 iid를 가정한다. 이 모형을 OLS를 적용하여 추론을 하면 다음 <그림 0>과 같은 문제점이 발생한다.

 

    

   


왼쪽은 관찰되지 않은 패널 그룹 A, B의 특성을 고려하여 각각 독립적으로 OLS를 적용한 결과이고 따라서 회귀계수 는 정(+)의 값으로 추정된다. 그러나 이런 패널 자료의 특성을 고려하지 않고 통합 OLS를 사용하는 경우 왼쪽의 그림에서 보듯이 회귀계수는 부(-)의 값으로 추정된다. 즉 패널 자료의 특성을 고려하지 않고 OLS를 적용하면 불편추정량(unbiased estimator)이 되지 못하고, 또 관찰 수가 증가해도 일치통계량(consistent estimator)의 성격을 갖지 못한다. 따라서 관찰되지 않는 패널 그룹의 특성을 고려하는 패널 회귀분석의 모형이 필요하다.

 

 

(2) 고정효과 패널 회귀분석(Fixed Effect Panel Regression)

 

고정효과 패널 회귀분석의 모형식은 다음과 같다.

 

 

 

여기서 는 종속변수, 는 독립변수, 는 오차항으로 iid를 가정하고 는 상수항이고 는 각 패널 그룹에 특성에 따른 상수항 차이를 의미하는데 확률변수로 인식하지 않고 특정한 고정된 값으로 인식하다. 따라서 이 모형을 일반적으로 고정효과 모형이라 부른다.

 

이 모형에서 추론을 하는 방법으로는

 

(1) LSDV(Least Squares Dummy Variable) 방법

 

이 방법은 패널 그룹의 특성을 이진 더미 변수로 처리하는 한 다음 OLS 추정방식을 적용하는 것이다. 예를 들어 본 연구의 경우 패널그룹의 수 n=2164이므로 2163개의 더미 변수 를 만드는 것이다. 즉

 

 

이 경우 추정해야 할 모수가 너무 많아 과잉적합(over-fitting)이 문제나 심각한 자유도(degree of freedom)의 문제가 생기기 때문에 본 연구에는 적합하지 않는 모형이다. 즉, 이 모형은 패널 그룹의 개수가 적고, 또 패널 그룹의 특성 차이가 연구에 중요한 주제인 경우 사용하는 모형이다.

 

(2) Within Estimator 방법

 

이 모형은 각 패널 그룹에서 시간에 걸친 평균값을 구한 다음 원 모형에서 평균값을 제거한 모형을 뺀 모형이다. 즉, 원 모형에서 평균을 제거한 모형을 빼면

 

 

가 된다. 이 최종 빼기를 한 마지막 모형에 OLS를 적용하면 된다. 그러나 이 Within estimation 방법의 약점은 시간에 걸쳐 불변인 변수가 독립변수로 있는 경우, 예를 들어 본 연구에서는 취약계층 변수인 장애인 여부, 유공자 여부, 기초수급 대상자 여부는 대부분 시간에 불변한 변수인데 이 경우 평균을 빼면 변수의 값은 모두 0의 값을 가지게 되어 추정이 불가능하게 된다. 따라서 본 연구에서도 이 모형을 적용할 수 없다.

 

 

(3) First-Differencing 방법

 

이 방법은 1시점 전의 모형을 원 시점 모형에서 빼기를 한 모형에다 OLS를 적용하는 모형이다. 즉,

 

 

여기서 을 의미한다. 이 방식도 Within Estimation 방식과 마찬가지로 문제가 되는 고정효과 를 제거할 수 있어 일치통계량의 성질을 가지고 Within Estimation 방식의 단점이 시간에 걸쳐 불변이 변수가 독립변수로 설정되어 있는 경우 추정이 불가능하다는 약점이 있다. 따라서 본 연구에서는 이 모형을 적용할 수 없다.

 

 

3) 확률효과 패널 회귀분석(Random Effect Panel Regression)

 

 

확률효과 패녈 회귀분석 모형식은 고정효과 패널 회귀분석 모형식과 비슷하다. 즉,

 

 

단, 패널 그룹의 효과를 나타내는 가 고정효과 모형에서는 모르지만 하나의 값으로 인식하지만 확률효과 모형에서는 확률변수로 인식한다. 즉, 는 평균이 0이고 표준편차가 이고 각각 독립인 정규분포를 가정하고, 오차항 는 각각 독립이고 동일한 분포를 가진다고 가정한다.

확률효과 패널 회귀분석의 가장 중요한 가정은 이다. 즉 독립변수와 패널그룹효과는 서로 독립적이라는 가정이다. Hausmam(1978)에 의하면 이 고정효과 모형에서는 이 조건과 관계없이 일치통계량이 되지만 확률효과 모형에서는 이 조건을 만족하면 best linear unbiased estimator(BLUE) 성격을 가지고 일치통계량이 되지만 이 조건을 만족하지 못하면 일치통계량이 되지 못한다고 하였다. 따라서 확률통계 패널 회귀분석에서는 최소한 이 조건을 만족해야만 표본 수가 증가할 때 추정량 B가 모수 에 접근한다고 믿을 수 있다.

 

한편 에서 패널 그룹 특성 효과의 오차항 는 일정하게 에 영향을 미친다. 따라서 는 자기 상관관계가 있다. 즉 intra class correlation coefficient(ICC)라 불리는

 

 

로 정의된다. 따라서 확률효과 패널회귀분석시 생겨날 수 있는 자기 상관관계와 이분산성 문제를 해결하기 위해 OLS가 아니라 GLS(Generalized Least Squares) 방법을 써서 추정해야 한다. 본 연구에서는 연구모형의 가설 검증을 위해 확률효과 회귀분석을 실시하고 추정방법론으로는 MLE가 아닌 GLS 방식을 택하였다.

 

 

Hausman, J. A. (1978), Specification Tests in Econometrics, Econometrica, Vol, 46, No. 6. pp. 1251-1271.



'혼합모형(Mixed Model) > 패널회귀분석' 카테고리의 다른 글

최소제곱법의 이해  (0) 2019.06.04
panel3, 내포와 위계모형  (0) 2019.04.15
고정효과모형(FEM)1  (0) 2019.04.07
패널 회귀분석의 이해1  (0) 2019.04.03