혼합모형(Mixed Model)/패널회귀분석

panel3, 내포와 위계모형

학위논문통계 2019. 4. 15. 17:17



5. 일반적인 고정효과 모형 설명

 

기울기에 고정효과가 들어간 모형을 이야기하기에 앞서 이해를 돕기 위해 위계적 회귀분석 모형과 서로 비교하기로 하죠.

 

앞에서 이야기한 것처럼 고정효과모형은 조절효과를 검증하는 Baron & Kenny의 위계적 회귀분석 모형과 일치합니다. 그런데 왜 이렇게 복잡하게 이야기하는가 하면 일단 고정효과모형인 아닌 확률효과 모형은 전혀 다르고요, 또 Baron & Kenny 모형은 오차항이 독립적이라 가정하지만 panel 모형에서는 시계열 데이터 성격이 있기 때문에 이 오차항을 독립적으로 보기 힘듭니다.

 

예를 들어 흔히 실험의 효과를 볼 때 최근 가장 많이 사용하는 공변량 분석의 경우 동일한 사람의 t1 시점의 사전점수 X와 t2 시점의 사후점수 Y는 기본적으로 서로 상관관계가 있다고 봐야 합니다. 그러나 공변량 분석에서는 사전점수 X는 확률변수가 아닌 주어진 값으로 처리하고 사후점수 Y만 확률변수로 취급해서 이 문제를 회피하고 있는 것입니다.

 

하여간 이 오차항의 독립성 문제는 매우 복잡함으로 다음에 이야기하고 여기서는 일단 오차항들은 독립적이라 가정하고 이야기를 진행하고 있는 것입니다.

 

 

그럼 이 모형을 이해하기 위해 조절효과를 검증하기 위해 하는 위계적 회귀분석이 실제로 어떻게 구현되는가를 좀 자세히 알아야 합니다.

 

 

1) 독립변수 1개, 더미변수 1개

 

패널분석에서 고정효과는 위계적 회귀분석에서는 조절변수에 해당합니다. 그럼 일단 독립변수 X는 하나로만 설정하고 즉 X1이고 조절변수 M은 성별같이 범주가 2개인 그래서 더미변수로 처리하면 더미변수가 1개인 경우입니다. 이 경우 3단계를 써 보면

 

1단계: Y=b0+b1*X1

2단계: Y=b0+b1*X1+b2*D

3단계: Y=b0+b1*X1+b2*D+b3*X1*D

 

이렇게 됩니다. 여기서 D는 더미변수이고 성별이라 생각하시면 됩니다. 숫자로 표시하면 남자=0, 여자=1인 경우입니다.

 

그럼 2단계부터 구체적으로 알아보시다. 남성은 D=0, 여성은 D=1을 대입하면

 

2단계: 남성 Y=b0+b1*X1

여성 Y=(b0+b2)+b1*X1

 

즉 남성과 여성간에는 기울기는 같지만 상수항, 즉 Y 절편만 b2만큼 차이가 납니다.

 

3단계: 남성 Y=b0+b1*X1

여성 Y=(b0+b2)+(b1+b3)*X1

 

즉, 남성과 여성간의 차이는 상수항, Y 절편뿐만 아니라 기울기에서도 b3만큼 차이가 나는 모형입니다. 즉, 패널모형에서 상수항과 기울기에 고정효과가 들어간 모형과 일치합니다. 즉

 

Y=( +b0)+( +b1)*X1

 

즉 상수항과 기울기에 고정효과가 첨가된 패널회귀모형입니다. 여기서 b0과 b1는 성별에 따라 오는 모수입니다.

 

 

 

2) 독립변수는 1개, 더미변수는 2개

 

더미변수는 일단 2개로 한정했습니다. 즉 조절변수 M의 범주가 3개인 경우입니다. 여기서 범주가 더 많은 경우 수식을 쉽게 확장할 수 있습니다.

 

예를 들어 조절변수 M의 남자, 여자, 성소수자 이렇게 3개의 범주가 있다고 하죠. 그럼 조절변수 M은 2개의 더미변수로 처리해야 합니다. 즉, 남성=(D1, D2)=(0,0), 여성=(1,0), 성소수자=(0,1) 이렇게 처리해야 합니다. 그럼 위계적 회귀분석의 모형을 써 보면

 

1단계: Y=b0+b1*X1

2단계: Y=b0+b1*X1+b2*D1+b3*D2

3단계: Y=b0+b1*X1+b2*D1+b3*D2+b4*X1*D1+b5*X1*D2

 

이론적으로 별 다른 것은 없습니다. 단지 조절변수, 즉 고정효과변수의 범주가 3개 이상인 경우 실제 통계 프로그램에서 어떻게 처리하는지만을 보여주는 것입니다. 그래서 이 경우는 남자, 여자, 성소수자의 경우 어떻게 구체적으로 어떻게 다른지 한번 보죠.

 

 

그럼 2단계부터 구체적으로 알아보시다. 남성은 (D1,D2)=(0,0), 여성은 (1, 0), 성소수자는 (0,1)을 대입하면

 

2단계: 남성 Y=b0+b1*X1

여성 Y=(b0+b2)+b1*X1

성소수자 Y=(b0+b3)+b1*X1

 

 

즉 남성과 여성, 성소수자간에는 기울기는 같지만 상수항, 즉 Y 절편만 여성은 남성보다 b2만큼 크고, 성소수자는 남성보다 b3만큼 큽니다. b2와 b3가 음수가 나오면 그 만큼 남성보다 작게 되겠죠.

 

3단계에서는

 

3단계: 남성 Y=b0+b1*X1

여성 Y=(b0+b2)+(b1+b4)*X1

성수소자 Y=(b0+b3)+(b1+b5)*X1

 

즉, 남성과 여성간의 차이는 여성이 상수항, Y 절편에서는 b2, 기울기에서도 b4만큼 남성보다 크게 나오고, 성소수자의 경우 상수하에서는 b3, 기울기에서는 b5만큼 남성보다 크게 나오는 모형입니다. 차이가 나는 모형입니다. 즉, 패널회귀모형

 

Y=( +b0)+( +b1)*X1

 

b0와 b1이 조절변수, 즉 고정효과 변수의 범주가 3개인 경우입니다.

    

 

3) 독립변수는 2개, 더미변수는 2개

 

더미변수는 일단 2개인데 독립변수가 X1, X2, 2개인 경우로 한편 풀어 보겠습니다. 독립변수가 3개 이상인 경우도 쉽게 확장할 수 있습니다.

 

그럼 위계적 회귀분석의 모형을 써 보면

 

1단계: Y=b0+b1*X1+b2X2

2단계: Y=b0+b1*X1+b2*X2+b3*D1+b4*D2

3단계: Y=b0+b1*X1+b2*X2+b3*D1+b4*D2+b5*X1*D1+b6*X1*D2+b7*X2*D1+b8*X2*D2

 

그래서 이 경우는 남자, 여자, 성소수자의 경우 어떻게 구체적으로 어떻게 다른지 한번 보죠.

 

 

그럼 2단계부터 구체적으로 알아보시다. 남성은 (D1,D2)=(0,0), 여성은 (1, 0), 성소수자는 (0,1)을 대입하면

 

2단계: 남성 Y=b0+b1*X1+b2*X2

여성 Y=(b0+b3)+b1*X1+b2*X2

성소수자 Y=(b0+b4)+b1*X1+b2*X2

 

3단계에서는

 

3단계: 남성 Y=b0+b1*X1+b2*X2

여성 Y=(b0+b2)+(b1+b5)*X1+(b1+b7)*X2

성수소자 Y=(b0+b3)+(b1+b6)*X1+(b1+b8)*X2

 

이렇게 됩니다. 즉, 패널회귀모형

 

Y=( +b0)+( +b1)*X1+( +b2)*X2

 

그럼 지난번 미국의 4개 회사의 패널 데이터의 결과물을 한번 볼까요. 여기서 독립변수는 2개, 즉 기업가치와 자본규모, 그리고 조절변수인 회사는 4개, 그래서 더미변수는 3개를 만들어야 합니다. 물론 종속변수는 투자액입니다. 결과는 다음과 같습니다. 모형이 매우 복잡해졌지만 설명력의 증가는 그리 크지는 않습니다. 모형식은

 

 

 

그리고 결과는






2. 내포모형(nested model)과 위계모형


 

위에서 설명한 1단계, 2단계, 3단계 모형을 자세히 보면 다음과 같은 관계를 알 수 있습니다.

 

1단계 모형 < 2단계 모형 < 3단계 모형

 

즉 모형이 갈수록 복잡해지고 작은 모형은 큰 모형의 특별한 케이스인 것을 알 수 있습니다. 이럴 경우는 내포모형(nested model)이라고 합니다.

 

그럼 만약에 이런 경우는 어떻게 되는지 질문을 할 수 있습니다. 상수항은 같은데 기울기만 다른 경우는 어떻게 합니까. 이것도 별 문제없습니다. 모형식은

 

모델 1: Y= +( +b1)*X1

 

이렇게 되고 앞에서 한 것과 같이 통계프로그램 메뉴에 이 모형이 있으면 그냥 실행을 하면 결과가 나오고, 만약 메뉴에 없으면 앞에서 한 것과 같이 조절변수, 고정효과 변수를 더미변수로 만들고 그 다음에 상호작용항도 만들고 마지막으로 메뉴에서 일반 회귀분석을 돌리면 됩니다.

 

그런데 왜 위의 모형은 잘 안하는 것일까요. 내포모형으로 만들 수가 없기 때문입니다. 위 모형은 3단계 모형보다는 작고, 1단계 모형보다는 큰 모형이지만 2단계 모형과는 비교를 할 수가 없습니다.

 

 

그럼 왜 이 내포모형이 중요한가? 위 내포모형에는 구체적으로 우리에게는 1단계, 2단계, 3단계 3개의 모형이 주어져 있습니다. 이 중 우리는 데이터를 보고 가장 바람직한 모형 하나를 선택을 해야 합니다. 이걸 모델 선택(model selection) 문제라 합니다.

 

예를 들어 회귀분석에서는 1단계에서 2단계로 갈 때 추가적인 설명력의 증가에 대한 F 검증을 할 수 있습니다. F 검증이 유의적으로 나오면 복잡한 2단계 모형을 선택하고 F 검증이 유의하게 나오지 않으면 간단한 1단계 모형을 선택합니다.

 

그러나 회귀분석이 아닌 경우, 즉 정규분포 가정이 없거나, 또는 비선형 모형이 있는 경우 문제가 간단하지 않습니다. 이 경우 X2 이나 G2 같은 검증 통계량을 씁니다.

 

이걸 간단하게 정리해 보겠습니다.

 

 

간단한 모형을 A라 하고 복잡한 모형은 B라 하죠. 그리고 B는 간단한 모형 A에 독립변수가 추가적으로 X5, X6이 더 있다고 하죠. 그럼

 

간단 모형: A

복잡 모형: B=A+b5*X5+b6*X6

 

이라 쓸 수 있습니다. 다시 쓰면

 

 

귀무가설 H0: 간단모형 A가 맞다

대립가설 H1: 복잡모형 B가 맞다 또는

                    b5, b6가 0이 아니다.

 

즉 일반 사회과학에서 가설로 b5=0, b6=0이라는 귀무가설을 세우는 것이랑 일치합니다.

 

 

이 가설을 검증하는 경우 정규분포인 경우 F 검증으로 잘 되는데 정규분포만 아니면 F 검증이 잘 안됩니다. 그래서 X2이나 G2 같은 검증을 하는 것입니다.

 

 

사실 이 모양은 SPSS 회귀분석에서 여러분들이 많이 본 모양입니다. SPSS 회귀분석 메뉴에 보면 독립변수 선정하는 곳에 enter라는 것이 있습니다. 여기에 보면 enter 외에 전진 선택법, 후진 제거법 등 여러 가지 다른 방법론이 있습니다. 이 용어들은 통계학 책마다 조금씩 다릅니다.

 

전진선택법은 가장 간단한 모형, 즉 독립변수를 1개 넣는 모양에서 시작해서 그 다음 바람직한 독립변수를 넣고 이런식으로 점점 복잡하게 회귀분석 모형을 만드는 방법입니다. 더 이상 독립변수를 추가해도 설명력이 뚜렷하게 나아지지 않으면 거기서 멈추고 최종 결과 모형을 가장 바람직한 모형이라고 선택하는 것이죠.

 

이에 반해 후진 제거법은 우리가 먼저 고려한 모든 독립변수를 다 넣은 가장 복잡한 모형에서 시작해서 가장 쓸데없는 독립변수부터 시작해서 하나씩 독립변수를 제거하여 단순한 회귀분석 모형으로 만드는 방식입니다.

 

 

그래서 여러 개의 모형이 A < B < C 이런 식으로 내포모형으로 되어 있으면 어떤 모형을 택할지는 앞에서 이야기한 방식을 통해 어느 정도 해결이 됩니다.

 

그러나 앞에서 이야기한 y 절편만 고정효과가 들어간 모형 A와 기울기만 고정효과가 들어간 모형 B간에는 내포관계로 나타낼 수가 없습니다. 즉 A 모형이 더 간단한지, 아니면 B 모형이 더 간단한지 이런 말을 할 수가 없다는 것이죠. 이런 경우 어떻게 바람직한 모형을 선택할 수 있을까요. 이걸 하기 위해서 나온 측정치가 AIC, BIC입니다. 모형이 복잡하다는 것은 대부분 추정해야 할 모수가 모형이 더 많이 들어가 있습니다. 그래서 AIC나 BIC 측정치는 모수의 수가 페널티로 들어가 있습니다.

 

 

그럼 위계모형은 뭘 이야기를 하는 것일까요.

 

크게 두 가지로 나눌 수 있습니다. 혼합모형에서 나오는 수준에 따라서 계층을 나눠 분석하는 모형인 경우가 있습니다. 흔히들 위계선형모형(HML)이라고 하죠. 이건 나중에 다시 쓰겠습니다. 이런 것은 베이지안에서도 나옵니다. 베이지안은 모수를 확률적으로 보아 확률변수로 생각합니다. 주류 통계학에서는 모수를 모형안에서 모르는 하나의 값, 그래서 데이터를 통해 추정해야 하는 값으로 봅니다.

 

그래서 베이지안은 모수를 확률변수로 보기 때문에 모수의 확률분포를 가정해야 합니다. 그러나 가정한 모수의 확률분포 안에 또 모수가 들어갈 수 있습니다.

 

즉 어떤 모수의 분포를 정규분포를 가정하는데 N(0, 분산)의 경우 분산 자체가 또 모수로서 들어갑니다. 이렇게 모수가 수준별로 여러번 나올 수 있습니다. 이럴 경우 계산이 매우 복잡합니다. 그래서 나중에 나오는 모수는 주류 통계학의 주장을 받아 드려 데이터에서 추정하자는 이야기가 나옵니다. 이런 학파를 경험 베이지안(empirical baysian)이라고 합니다.

 

 

혼합모형에 나오는 위계모형 말고 조절효과 검증하는데 사용하는 위계모형이 있습니다. 이건 독립변수에서 높은 차수의 독립변수항이 모형에 들어가면 그 보다 낮은 독립변수 항은 항상 들어가야 하는 모형을 말합니다. 예를 들어 쓰면

 

위계모형: Y=b0+b1*X+b2*M+b3*X*M

 

이게 대표적인 조절효과를 검증하는 위계모형입니다. X*M은 en 독립변수 X와 M을 곱한 상호작용항인데 이게 2차항입니다. 그럼 이 2차 항에 들어가 있는 X와 M은 모형식에 꼭 들어가야 위계모형식이라 봅니다.

 

그럼 어떤 경우가 위계모형이 아닐까요.

 

비위계모형: Y=b0+b1*X+b3*X*M 또는

          Y=b0+b2*M+b3*X*M

 

 

이런 경우 위계적 모형이라 하지를 않습니다. 2차항에 X와 M이 들어있는데 처음 모형식에는 M이 독립변수로 들어가 있지 않고, 두 번째 모형식에는 X가 독립변수에 들어가 있지 않습니다.

 

그럼 왜 이런 위계모형을 생각할까요. 앞에서 이야기한 것처럼 모형 선택을 편하게 하려고 어쩔 수 없이 만든 것입니다. 만약 모형을 위계 모형으로 한정하지 않으면 우리가 설정한 독립변수에서 수많은 모형들을 만들어 낼 수 있습니다. 예를 들어 독립변수가 X1, X2, X3, X4 4개가 있다고 하죠. 그럼

 

X1*X2, X1*X3부터 시작해서 X1*X2*X2, X1*X3*X4부터 마지막으로 X1*X2*X3*X4까지 수많은 파생하는 독립변수항을 만들어 낼 수 있습니다. 즉 우리가 만들 수 있는 모형은 최초의 독립변수 수가 늘어나면 기하급수적으로 늘어납니다. 따라서 이 수많은 모형을 다 고려해서 여기서 최적의 모형을 찾아내는 일이 보통 일이 아니다라는 것이죠. 더구나 이 위계모형을 내포모형을 사용하면 모형 선택의 문제가 상당히 이론적으로 풀 수 있는데 위계모형이 아니면 AIC나 BIC를 사용하는데 이게 이론적으로 엄밀하지 않거든요.

 

 

 

 

 

 

 

 


'혼합모형(Mixed Model) > 패널회귀분석' 카테고리의 다른 글

고정효과와 확률효과모형 비교.  (0) 2019.08.13
최소제곱법의 이해  (0) 2019.06.04
고정효과모형(FEM)1  (0) 2019.04.07
패널 회귀분석의 이해1  (0) 2019.04.03