회귀분석/회귀분석,Regression

회귀분석1

학위논문통계 2013. 3. 15. 16:03

1. 기본 회귀분석 모형의 이해

 

인과관계를 분석하는 가정 기본적이고 중요한 형태가 회귀분석입니다. 기본적인 형태인 회귀분석에서 이론의 가정이 어긋났을 때, 또는 시계열 상의 데이터 분석 등 다양한 상황에서 이론이 복잡하게 전개 되지만 기본적인 꼴은 회귀분석 모양입니다.

 

통상 사회과학 논문에서 사용되는 회귀분석은 가장 기본적인 회귀분석 모양이고 그 모형식은 다음과 같습니다.

 

관심이 있는, 분석하고 싶은 변수: 종속변수, 결과 변수

결과 변수에 영향이 있는 변수: 독립변수, 원인변수

 

라고 하면

 

인과관계: 원인==> 결과

 

은 회귀분석에서 다음과 같은 수학 모형식으로 정의됩니다.

 

결과=b0+b1*원인1+b2*원인2+b3*원인3+...+오차항

 

즉 수학식으로 쓰면

 

Y=b0+b1X1+b2X2+b3X3+...+e

 

이런 식이 된다는 것이죠. 왼쪽이 결과변수, 오른쪽이 원인변수들이 들어갑니다. 그리고 직선 모양의 식으로 되어 있습니다(원인 변수가 하나이면 Y=b0+b1X1 이 되어 정확하게 중고등학교에서 배우는 일차직선이 됩니다. e는 오차항이라고 해서 앞의 원인변수로 설명되는 없는 확률적인 항입니다.

 

그래서 관심 있는 변수를 먼저 설정하고, 여기에 논리적으로, 이론적으로 영향을 미칠 것 같은 변수들을 설정하고, 그런 다음 데이터를 구해 먼저 회귀계수 b 들을 구한 다음 이 b 값들이 0 인지 아닌지 판단을 내린다는 것이죠. 만약 통계적으로 b 값이 0이라면 여기에 해당하는 변수는 결과에 영향이 없는 변수로 판단하고, b 값이 통계적으로 0이 아니라면 여기에 해당하는 변수는 결과에 영향을 미치는 변수로 판단한다는 것이죠. 이게 일반적인 사회과학 논문에서 하는 것입니다.

 

통계나, 상경대, 자연계에서의 회귀분석 목적은 조금 다릅니다.

 

결과변수 Y를 가장 잘 설명하는 모형식을 만드는 것이 목적입니다. 따라서 영향력이 없다고 판단하는 경우는 위 모형식에서 제외를 시킵니다. 이건 나중에 자세히 설명하겠습니다.

 

주식시장에서 자주 사용하는 그래프 중에 이동평균선이라는 것이 있습니다. 예를 들어 3일 이동평균이라 하면

 

Y(n) = 0.333*Y(n-1)+0.333*Y(n-2)+0.333*Y(n-3)

 

로 계산됩니다. 즉 왼쪽의 현재 시점 주식은 오른쪽 3시점 전까지의 주식 값의 가중치로 계산합니다. 그럼 왼쪽은 결과 변수, 오른쪽의 이전 시점 주식은 원인 변수라고 볼 수 있습니다.

 

물론 진짜 목적은 다릅니다. 이건 공학에서 나오는 주파수 필터링하는 기법입니다. 돌비 시스템 같이 잡음을 없애는 기능을 합니다.

 

 

 

 

2. 독립변수의 종류

 

원인에 해당하는 변수를 독립변수라고 했는데 여기에도 조금씩 구별을 해서 사용합니다.

 

여러분이 결과 변수에 영향을 미치는 주 관심 대상인 독립변수가 있습니다. 그러나 결과 변수에 영향을 미치지만 주 관심 대상이 아닌 변수들도 있습니다. 이 경우 범주형의 경우 주로 통제 변수라고 많이들 이야기하고 연속형 변수인 경우 공변량(covariate)라는 말을 많이 사용합니다. 그러나 엄밀한 학술적인 용어는 아닌 것 같고요. 그러나 이렇게 구별해서 사용하여도 무난할 것입니다.

 

즉 독립변수=(주 관심 대상인 독립변수)+(주 관심 대상이 아닌 독립변수)

=((주 관심 대상인 독립변수)+(통제변수, 공변량 변수)

 

연속형 변수가 공변량의 경우는 어떤 경우가 있을까요?

 

옛날에는 대학시절에 운동권에 학생들이 많이 있었죠. 그래서 운동권 경험이 대학 졸업시 성적에 영향을 미치는 지 알고 싶습니다.

 

그럼 관심이 있는 주제는

 

운동권 경험 ==> 대학 졸업시 성적

 

이라는 인과관계가 되겠죠.

그러나 대학졸업시 성적에 영향을 미치는 것으로 대학입학시 성적이 될 수가 있습니다. 즉 입학할 때 성적이 좋은 학생이 졸업때도 성적이 좋을 가능성이 있겠죠. 머리가 좋다든지, 아니면 성실하다든지, 하여간 무슨 이유든가네요. 그럼 입학시 성적은 공변량이 됩니다. 그리고 인과관계는

 

(입학시 성적, 운동권 경험)==> 대학 졸업시 성적

 

이 되고 수학적 모형은

 

졸업시 성적=b0+ b1*입학시 성적 *b3*운동권 경험여부+e

 

라는 모형이 됩니다. 여기서 운동권 경험여부는 0, 1로 된 이진 범주형 변수이지만 이게 진짜 알고 싶어 하는 원인 변수가 되고, 연속형 변수인 입학시 성적은 공변량이 됩니다. 이런 분석을 하는 것이 공변량 분석입니다. 연속형과 범주형 데이터가 원인변수에 공존해 있는 경우입니다.

 

그러나 하여간 통제변수건, 공변량이이건, 진짜 분석하고자 하는 원인 변수이든 전부 회귀분석에서는 독립변수로 들어가고 회귀분석 이론에 따릅니다. 특별히 달리 이해하거나 해석을 달리 할 필요는 없습니다.

 

 

 

3. 회귀분석의 기원

 

회귀분석의 기원은 상당수 사람들이 알고 있는 것 같습니다. 다윈의 사촌인가요 Galton이라는 사람의 연구에서 나왔죠. 이 사람 연구를 친구인 유명한 통계학자인 Pearson이라는 사람이 학술적으로 소개했고요. 통계학의 기초를 세운 사람이라면 아마 Pearson을 많이 이야기 할 것입니다. 교차분석의 카이제곱, 상관계수도 흔히 Pearson 카이제곱, Pearson 상관계수라고 합니다.

 

Galton의 연구를 자세히 설명한 책을 보지 않아서 정확하게는 이해했다고는 못하겠지만 간략하게 설명된 것을 보면

 

결과변수는 자식의 키입니다. 원인 변수는 부모의 키이고요. 즉 회귀분석 모형을 세우면

 

자식의 키 = b0+b1*부모의 키+e

 

여기서 b1이 1보다 작다는 현상을 발견한 것 같습니다.

 

b1이 1이거나 1보다 크면 어떻게 될까요. 이게 시간이 점점 지나가면 우리가 중고등학교 수학에 나오는 등비수열과 비슷하게 됩니다. 공비수열의 합이 수렴하려면 공비가 1보다 작아야 하고 1이상이면 확산한다는 내용이 있죠.

 

원래 Galton이 관심을 가진 현상은 바로 이것입니다. 사람들의 키의 분포가 시간이 지나도 일정하다는 것이죠. 이건 상식하고 좀 안 맞죠. 키 큰 사람끼리, 키 작은 사람끼리 결혼할 가능성이 많고, 그러면 키 큰 집안의 자식들은 시간이 지나갈수록 점점 더 커져가고, 키작은 집안의 자식들은 점점 더 작아져 키의 분포가 점점 더 확산되어 갈 것 같거든요.

 

그래서 실제 분석한 결과 키큰 집안 자식이 키 작은 집안 자식보다 큰 것은 맞지만 키큰 집안 자식은 전체 평균키로 내려가고, 키 작은 집안 자식은 전체 평균키로 올라가는 현상이 나왔습니다.

 

물론 시대에 따라 키가 점점 상승하는 경향은 있죠. 이건 식량이 풍부해지고, 영영 섭취가 잘되고 하는 이런 이유때문이죠. 단순하게 유전적인 측면만 보면 Galton의 평균으로 회귀하는 경향이 있다는 것이죠.

 

 

 

3. 다음 글

 

다음에는 결과변수에는 이직의도, 여기에 영향을 미치는 원인변수로는 다양한 스트레스 종류(경제적 스트레스, 신체적 스트, 환경적 스트, 인간관계 스트, 직무 스트), 조직문화, 그리고 관심 있는 원인 변수는 아니지만 성별, 지역별(대도시, 종소도시, 시골)를 통제변수로 하여 가공의 회귀분석 결과표를 만들어 회귀분석의 데이터 변형과 결과표의 해석에 대해 설명을 하겠습니다.