회귀분석/이론

회귀분석 이론을 좀더1

학위논문통계 2013. 3. 19. 15:20

 

지난번 이야기를 계속 해보죠. 먼저 회귀분석 전에 신뢰구간 글에 조금 첨가했습니다. 신뢰수준 95%라는데 실제 선거 상황에서 의미를 첨가했습니다.

 

 

이제 조금 본격적으로 이야기 하겠습니다. 앞에서 이야기 했지만 공부나 연구를 계속하실 분 아니시면 본 필요가 없습니다. 골치만 아프니까요.

 

1. 자유도

 

앞에서 이야기한 설명력과 영향력에서 아무리 생각해봐도 표준회귀계수와 t 값과는 거의 비슷한 의미가 있는 것 같습니다. 물론 일치하지는 않습니다. 즉 표준회귀계수 값이 커지면 t 값이 항상 올라가지는 않습니다. 경험상. 거의 비슷할 거라 보입니다. 두 개의 공식을 구해서, t와 표준회귀계수간에

 

t 값=G(표준회귀계수), 여기서 G는 단조증가함수

 

G가 거의 단조증가함수 비슷한 모양임을 밝히면 될 것 같은데.

 

하여간 t나 F나 값이 커지면 여러분의 가설(통계학 책에서는 대립가설)을 지지하는 가능성이 높아집니다. 즉 p 값이 떨어집니다. 단조감소 관계입니다.

 

그럼 t나 F 값을 보고 가설을 채택할 건지 아니면 기각할 건지 결정하면 될 건데 왜 p 값을 새로 구해서 가설 채택여부를 결정하는지 궁금해 할 수 있습니다. 왜 t나 F 값을 쓰지 않냐면 여기에서는 자유도(df=degree of freedom)이라는게 있어서 이 자유도에 따라 t와 F, 또는 카이 제곱 분포가 달라 일정한 기준이 되는 값을 제시할 수가 없습니다. 반면에 p 값은 유의수준이라는 일정 값(통상 0.05)을 기준으로 제시할 수 있거든요.

 

 

원래 우리가 데이터를 뽑아서 보려고 하는 것을 모수(parameter)라고 합니다. 예를 들어 정규분포의 경우 모수는 평균 u와 표준편차 시그마입니다. 데이터를 통해서 두 개의 값만 추측해낼수 있으면 이 정규분포에 관련된 확률값이나 의사결정을 할 수 있습니다.

 

그러나 자유도(df)는 데이터를 통해서 추측하려고 하는 모수가 아닙니다. 이건 이론상 도출되는 값입니다. 대부분의 통계 분석에서는 설문대상 인원과 모형에 들어가는 독립변수의 개수에 의해 자동적으로 정해집니다. 그러나 수 많은 사람들이 논문을 쓰는데 이때마다 설문대상자 수나 독립변수의 개수가 다 다릅니다. 따라서 자유도가 달라져서 t와 F 분포 모양이 달라지고 여기에 따라서 가설을 채택할지 기각할지 기준을 세우는 값이 다 달라지거든오. 그래서  p값 처럼 모든 경우에 적용되는 0.05, 0.01, 0.001 같은 특정 값을 제시할 수 없습니다.

 

통상 통계학책이나 아니면 사회과학 방법론 책에 모수를 하나 추정하니까 자유도가 하나 줄어들고 하는 말이 나오는데 이건 수학적으로 증명된 원칙이 아닙니다. 대강의 법칙(rule of thumb)입니다. F와 카이제곱는 정규분포 제곱의 합에서 도출됩니다(t는 F의 특수한 경우). 책에 이런 대강의 법칙을 써도 좋지만 가능하면 이 법칙이 대강의 법칙이라는 것을 언급하시는 것이 좋습니다.

 

이 자유도를 이용해서 통계결과를 조작하지 않고 교묘하게 조작할 수 있습니다. 이것도 일종의 대강의 법칙입니다.

 

1) 설문응답자 수를 늘리면 유의적으로 나오는 경향이 높습니다.

 

2) 독립 변수를 많이 넣으면 유의적으로 나오는 경향이 줄어듭니다. 즉 회귀분석에서는 유의적이지 않다고 나오는데 상관분석에서는 유의적으로 나오는 경향이 많습니다.

 

3) 독립변수를 많이 넣으도 종속변수와 아무런 관계가 없는 변수를 넣으면(예를 들어 통제변수라는 이름하에) 유의적으로 나오는 경향이 높습니다.

 

 

 

 

2. b는 값인가 확률변수인가

 

회귀계수는 b에 관해서 이야기 해보죠. 앞에서 우리가 회귀분석을 돌리면 회귀계수 b의 값이 구체적으로 나옵니다. 그러나 그 옆에는 표준오차는 b의 분포의 표준편차가 나옵니다. 과연 b는 하나의 값인가요, 아니면 분포를 가지는 확률변수인가요 하는 질문이 나올 수 있습니다.

 

여기서 혼란을 피하기 위해 통계학에서 나오는 표준적인 기호를 적어 보겠습니다.

 

 

기호

구분

비교

베타

이건 모수입니다. 즉 데이터를 통해 추측하려는 값입니다. 통계학에서는 모수를 그리스 문자로 표시하는 것이 일반적인 관례입니다. 상황에 따라서는 다르게 할 수 있지만요. SPSS에서는 표준회귀계수의 값을 베타로 표시하는데 좋은 관례가 아닙니다. 주류통계학에서는 현재 모르지만 하나의 값으로 보지만

 비주류인 베이지안에서는 이것도 분포를 가지는 확률변수로 봅니다.

베타 hat, b

베타 hat이라 읽습니다. 데이터를 통해 베타를 추측한 값입니다.

확률변수

이론 전개시 이것은 확률변수로 해석될 경우가 있습니다. 뒤에서 설명하겠습니다.

 

여러분이 기초통계학 책이든 하여간 통계관련된 책을 놓고 같이 공부를 하시면 이 기호 때문에 헷갈릴 수가 있습니다. 주류 통계학책의 기호는 위의 표와 같습니다. 이 블로그에서는 베타 기호 쓰기가 불편해 그냥 모형에서 베타대신 b를 쓰고 모수와 추정된 값을 구별하지 않았습니다.  hat은 그리스 문제위에 삿갓을 세운 것인데 이건 데이타를 가지고 모수를 추정한 값이라는 이야기입니다. SPSS에서 표준회귀계수를 베타로 표시하는데 좋은 관행은 아닙니다.

 

그럼 b는 데이터를 통해 하나의 값으로 추정했는데 이게 왜 분포를 가지는 확률변수로 해석이 되는가 하는 문제입니다.

 

간단히 예를 설명하겠습니다.

 

여론조사를 하면 각 후보의 지지율 r 이 나옵니다. 실제 진짜 지지율 p(모수)를 모르니까 설문조사를 하여 데이터를 구한 다음 추정한 값이죠. 그럼 이런 상황을 한번 생각해보죠. 만 개의 설문회사가 똑같은 선거구를 대상으로 똑 같은 인원수로 설문조사를 해서 지지율을 구해보죠. 그럼 만 개 회사 마다 만개의 다른 지지율 값이 나올겁니다. 간혹 같은 값을 가질수는 있지만요.

 

그럼 우리는 이 만개의 지지율 숫자를 가지고 분포 비슷하게 만들 수 있습니다. 실제로 이 만개의 숫자는 진짜 지지율 p를 중심으로 정규분포 비슷하게 생깁니다. 이론적으로 안해도 컴퓨터에서 시뮬레이션 해봐도 알 수 있습니다. 손으로 직접하시려면 선거구에 흰공 6개, 빨간공 4개 그래서 총 10개의 공을 넣고, 5개의 공을 계속 뽑아봅니다. 진짜 빨간공 비율은 0.4이고, 5개(설문인원) 뽑을 때마다 빨간공 비율이 다르게 나올겁니다. 이걸 만번 정도(설문 조사기관 수)해보면 이 만개의 빨간공 비율은 0.4를 중심으로 엉성한 정규분포를 하게 되어 있습니다. 공의 숫자를 늘리면 대칭적으로 부드러운 정규분포를 가지게 됩니다. 컴퓨터 시뮬레이션은 이 과정을 컴퓨터 프로그램한다는 것입니다.

 

그럼 하나의 설문회사에서 조사한 지지율 r은 하나의 값이고 가상적으로 만 개의 설문기관이 조사한 r은 원래 지지율 p를 중심으로 한 가상의 정규분포를 하는 확률변수가 됩니다.

 

이 회귀계수 값 b도 마찬가지입니다. 수 많은 연구원이 동일 집단을 대상으로 똑같은 인원 수를 설문조사하여 b값을 구하면 이것도 진짜 회귀계수 값 베타를 중심으로 정규본포를 가지게 됩니다. 이 가상적인 분포의 표준편차가 바로 b값 옆칸에 있는 표준오차입니다.

 

마찬가지로 에러항   e (이건 예외적으로 확률변수지만 그리스 문자를 사용합니다)에 관한 것도 이런 혼란이 생깁니다. 데이터를 통해 회귀분석을 하면 실제 y값과 추정된 y hat이 나옵니다. 이때 에러항에 대한 데이타로 (y-y hat)을 구합니다. 이건 잔차(residual)하고 합니다. 이와 같이 잔차는 각 y의 y hat 값에 따른 하나의 값일 수도 있고, 가상의 분포를 가진 확률변수로도 해석합니다.

 

이 두 개념을 이해하지 못하면 기존 통계 이론 책보기가 상당히 힘듭니다.

 

 

 

3. 모형에 대해서

 

 

이제 본격적인 회귀분석 모형을 이야기 하죠. 유의적인 독립변수를 뽑는 것은 우리가 국가대표 축구선수를 뽑은 다음 실제 경기에서 선발로 나갈 선수를 꼽는 것이랑 이야기가 비슷합니다. 회귀분석과 대표 선발을 다음 표에서 비교하죠.

 

 

구분

회귀분석

축구 선발 출전

종속변수 Y

관심이 있는 현상

승리

목적

현상 Y를 잘 설명

상대팀에 맞춰 전력의 극대화

논문 주제의 독립변수

현상 Y를 설명할 가능성이 있는 변수

축구 대표선수

유의적인 변수

실제로 영향을 미치는 변수

게임에 선발 선수

 

우리가 선발 선수를 뽑을 때 개별적으로 각 선수의 능력  순으로 뽑지를 않습니다. 왜냐하면 팀원간의 조직적인 플레이가 있기 때문입니다. 예를 들어 공격수가 전부 잘 잘하고 수비수는 좀 실력이 없는 팀을 생각해보죠. 각 개인별로 보면 공격수의 능력이 뛰어나지면 이 선수들로만 구성하면 수비가 구멍이 생기기 때문에 이 공격수만을 다 선발로 내세울 수 없습니다.

 

따라서 감독은 1명의 선수를 선발에 넣기 위해서는 나머지 10명의 선수와의 관계를 고려하지 않을 수 없습니다. 즉 나머지 10명의 선수가 들어간 다음에 이 1명의 선수를 추가했을 경우 팀 전력에 미치는 추가적인 영향력이 큰지 아닌지를 판단해야 합니다.

 

최근에 이동국선수와 박주영 선수와의 문제가 이것이죠. 두 선수의 스타일이 비슷하고 움직이는 동선이 비슷하면 오히려 팀 전력에 상승은 커녕 오히려 부정적인 영향을 미칠 수 있다는 것이죠. 각 개별적으로는 좋은 공격선수라고 해도요.

 

이 점을 잘 이해하셔야 합니다.

 

지금까지 우리가 회귀계수를 해석하였을 때 어떤 독립 변수 하나가 종속변수에 어떤 영향을 미치는가 하는 마치 상괍분석하듯이 두 변수를 1-1로 해석을 하였습니다. 그러나 다른 수많은 독립변수들이 들어가 있는 이상 이런 해석은 원래 맞지는 않다는 것이죠. 그래서 정확한 분석은 기존의 다른 독립변수가 들어가 있는 상황에서(10명의 선수가 이미 들어 있는 상황)에서 이 변수(다른 하나의 축구선수)가 추가로 들어갔을 때 영향력이 있는가 없는가(팀 전력에 도움이 되는가 아닌가) 하는 일종의 추가적인 영향력을 알아본 것입니다. 그래서 통계학에서는 partial 이라는 말을 사용합니다. 사실은 추가적인, 경제학에서 marginal 개념입니다.

 

 

 

4. 모형을 좀더 구체적으로 쓰면

 

그럼 정확하게 모형에 대해 더 이야기해보죠

 

예를 들어 우리가 연구모형에서 종속변수 Y를 설명할 가능성이 있는 독립변수로 X1, X2. X3, X4, X5를 가설적으로 설정했다고 하죠. 이 경우 실제로 생길 수 있는 모형은 굉장히 많습니다.

 

 

전부 유의적이지 않을 경우: Y=b0 1개

하나의 변수만 유의적: Y=b0+b1X1, Y=b0+b2X2, .... 등 5개

둘개의 변수만 유의적: Y=b0+b1X1+b2X2, Y=b0+b1X1+b3X3, .... 무수히 많음

..

다섯 개 변수 다 유의적: Y=b0+b1X1+b2X2+b3X3+b4X5+b5X5 1개

 

 

이와 같이 우리가 상상할 수 있는 모형은 2의 5제곱의 개수만큼 됩니다.(각 변수가 들어가고 안들어가고, 변수가 다섯 개이니까 2의 5제곱만큼의 모형 수가 생깁니다).

 

우리가 하는 작업은 이 2의 5제곱 개수가 있는 모형들 중에서 데이터를 통해서 가장 데이터를 잘 해석하는 모형을 딱 하나 뽑는 작업입니다. 물론 앞에서 이야기 했는지 결정계수만 보면 안된다고 해죠. 왜냐하면 변수가 많이 들어갈수록 결정계수는 무조건 올라갑니다.

 

실제로는 이 보다 더 많습니다. 예를 들어 단순히 X 대신 X^2을 할 수 있고, 또 logX, expX를 할 수 있습니다. 우리는 가정에서 Y와 X간에 선형관계가 있다고 가정했는데 실제는 그렇지 않을 수 있죠. 그럴 경우 변수를 변환해야 합니다. 이렇게 변환해도 이것 역시 선형모형입니다. 또 조절효과를 보려면 X1*X2 등 교호작용항을 넣을 수가 있습니다. 이건 하여간 다른 문제이고.

 

그럼 이 2^5 개 만큼 있는 모형을 전부 다 회귀분석 돌려서 결과를 뽑아보고 그 결과를 분석해서 최종적으로 하나를 뽑을까요? 참 난감한 일이죠.

 

그래서 시간을 줄이려고 나온 것이 단계적으로 분석하는 방법입니다. 처음에는 가장 단순하게 하나의 변수만 들어가는 것부터 그 다음 다른 변수를 첨가하고, 이런식으로 가는 방법이 있고요, 또 다른 방법은 처음에 5개 변수를 다 집어넣고 가장 나쁜 변수를 서서히 없애 가는 방법이 있습니다.

 

처음부터 하나식 늘여가는 방법을 좀 더 자세히 볼까요. 처음 5개 독립변수 중 Y와 가장 상관관계가 높은 것을 먼저 선택합니다(물론 유의성이 있어야죠). 그럼 이 변수를 X2라고 하죠. 그럼 이미 우리는 독립변수 하나가 들어가 있습니다. 그 다음 단계는 X2가 들어가 있는 상태에서 다른 독립변수, X1, X3, X4, X5를 넣어 본다는 것이죠. 즉 (X1, X2), (X2, X3), (X2, X4), (X2, X5) 이렇게 넣어서 이 중 가장 잘 나온 것을 자동적으로 선택한다는 것이죠. 여기서 X5가 선택되었다면 우리는 이미 X2와 X5는 이미 모형에 들어가 있습니다. 그럼 세 번째 단계는 X2와 X5가 들어가 있는 상태에서 또 다른 변수 X1, X3, X4를 각각 첨가해 본다는 것이죠. 이래서 각 단계에서 첨가했을 때 유의적으로 좋으면 계속 진행하고 첨가해도 유의적으로 좋아지지 않으면 거기에 모든 작업을 마치고 이전 단계를 가장 바람직한 연구모형으로 뽑는다는 것이죠.

 

SPSS에서 enter 메뉴를 보면 후진소거법, 전진 선택법이 나오는데 이것을 말하는 것입니다. enter 방법이라는 것은 없고요, 이건 기존 주제에 잡힌 독립변수를 다 넣어서 회귀분석을 돌리는 기본사양이라는 것입니다. 하여간 학자마다 이렇게 독립변수를 자동적으로 선택하는 방법에 대한 용어가 조금씩 다릅니다. 어찌 되었던 위와 같이 좀 편리하게 자동적으로 최종모형을 선택하는 방법입니다.

 

X1*X2 등 교호항이 들어가거나 X^2, X^3 등 고차원 항이 들어가면 더 복잡해진,는데 이 경우 가능하면 고려하는 모형의 수를 제한하려고 하는 시도가 위계적 회귀분석(Hierarchical Regression)입니다.

 

 

 

 그럼 t 검증을 모형으로서 설명해보겠습니다.

 

예를 들어 b4에 대한 t 검증을 보죠.

 

그럼

 

귀무가설 H0: b4=0, X4가 종속변수에 영향력이 없다

대립가설 H1: b4는 0이 아니다, X4가 종속변수에 영향력이 있다.

 

그럼 이걸 모형으로 표시하면

 

귀무가설 H0: Y=b0+b1X1+b2X2+b3X3+b5X5:    왜냐하면 b4=0이기 때문에

대립가설 H1: Y=b0+b1X1+b2X2+b3X3+b4*X4+b5X5

 

 

이 됩니다. 즉 지금 우리가 다루는 b=0이라는 가설은 작은 위쪽 모형을 선택할 것인가, 아니면 더 큰 아래쪽 모형(즉 X4도 들어가 있는) 모형을 선택할 것인지 데이터를 통해서 결정하라는 것입니다. 그래서 그 차이는 X4가 들어가 있는 않은 작은 모형에서 X4도 들어가 있는 더 큰 모형으로 갈 때 이 X4가 의미있는 변수인가를 묻고 있는 것입니다. 즉 (X1, X2, X3, X5)가 들어가 있는 상태에서 X4의 추가적인 영향력을 묻고 있는 것이죠. 앞에 이야기한 축구선수 선발을 뽑는 것이랑 유사하죠.

 

위의 문제 때문에 이 추가적인 영향력이 상식적으로 양(+)의 값이 나와야 하는데도 회귀분석을 돌리면 이상하게 음(-)의 값이 나올 수도 있고, 상식적으로 음(-)의 값이 나와야 하는데도 양(+)의 값이 나올 수가 있습니다. 앞에서 이야기한 이동국 선수와 박주영 선수를 같이 선발로 내세울 경우 생기는 현상입니다. 실제로 회귀계수가 자기의 상식과 다른 부호가 나왔을 경우 상관관계 분석을 보면 제대로된 부호가 나오는 경우가 많습니다.

 

더 골치아픈 상황은 각 독립변수들간에 상관관계가 높으면 앞에서 이야기한 b의 표준오차가 커지는 경향이 생깁니다. 이 표준오차가 커진다는 이야기는 실제 b=10인데도 우연히 b=-10으로 엉뚱한 값이 나올 가능성이 제법있다는 이야기죠.

 

그래서 이 추가적인 영향력이 실제로 발생하는 역효과인지. 아니면 표준오차가 커져서 생기는 현상인지 판단이 안된다는 것이죠.

 

 

 

5. 다중공선성(muticollinearty)

 

이러한 문제는 각 독립변수 X들이 독립적이지 않고 서로 상관관계가 있어서 생기는 문제입니다. 이 문제가 없으면 그냥 사회과학에서 하듯이 독립변수 전부 다 넣어서 돌리고 거기서 유의적인 변수만 뽑아서 최종모형으로 선택하면 됩니다.

 

하여간 이런 문제점을 해결하려고 통계학에서 여러 방법등이 나오는데 그리 실용적인 못되는 것 같고요. 그래도 조금 고려해 볼 수 있는 방법이 독립변수들을 상관관계가 0인, 즉 확률적으로 독립적인 변수로 만드는 방법이 있습니다. 예를 들어 주성분 분석이라든지, 아니면 SPSS에서 제공하는 요인분석을 해서 각 요인을 독립변수 대신해서 사용하는 것이죠. 경영학과에서는 요인분석을 해서 요인을 독립변수로 채택하여 사용하기도 합니다.

 

제가 생각하기에는 여러 가지 경우를 돌리고, 현장 경험을 살려서 문제가 되는 변수를 사전에 독립변수에서 제거하는 것이 가장 좋지 않나 생각합니다.

 

이런 독립변수들간의 상관성(다중 공선성이라고 하죠)을 사전에 미리 알아보는 것으로 VIF, tolerance, 그리고 condition 지수 등이 있습니다.

 

Hull의 금융공학책보면 주성분 분석을 써서 미 재무성 본드를 분석한게 있고요, 음...PCA와 Factor 분석을 좀 햇갈린든. 아니면 Johson & Wichern의 다변량 책을 보면 주식시장을 주성분 분석한 것이 있으니 참고하시면 좋을 듯하고요.

 

다음은 간단한 자료로 지난번에서 설명한 내용이 실제로 어떻게 되는지 한번 보기로 하죠.

 

 

 

'회귀분석 > 이론' 카테고리의 다른 글

회귀분석이론 4  (0) 2013.03.26
회귀분석이론3  (0) 2013.03.21
회귀분석 이론 2  (0) 2013.03.20