기타통계이야기/알통이 굵으면 보수?

알통이 굵으면, 얼굴이 예쁘면 보수?

학위논문통계 2013. 2. 21. 06:39

 

참 난감한 논문이네요. 알통이 굵으면 보수적이라. 통계학적으로는 간단한 논문인데 논리적으로 받아드리기 힘들죠. 어린 나이때는 생물학적인 충동에 많은 영향을 받지만 학교 졸업하고 사회생활을 하면 사회화 과정이 생기죠. 따라서 이런 인과 논리를 받아 드리기 힘들죠.

 

조만간에는 이런 논문도 나올 가능성이 있을 것 같습니다. 얼굴이 예쁘거나 비만도가 낮은 여자들이 더 보수적이다. 이런 주장을 한 논문도 가능할 것 같습니다. 아무래도 부자들이 배우자로 예쁜 여자를 많이 찾고, 또 돈이 많으면 얼굵이나 몸관리를 많이 하죠. 또 부자들이 보수적일 가능성이 높고요. 그래서 여자의 경우 얼굴이 예쁘거나 비만도가 낮으면 보수적일 가능성이 높습니다. 강남과 강북의 여성들을 대상으로 조사하면 되겠죠.

 

통계모형은 간단합니다. 위계적 회귀분석을 사용하였고요, Baron and Kenny 가 제시한 2단계 블록을 설정하여 회귀분석을 한 것입니다. 원 논문을 첨부했습니다.

 

학술적인 논문제목으로는

 

“알통굵기가 소득재분배 지지에 미치는 영향-소득계층의 조절효과를 중심으로”

 

알통보수.pdf

이렇게 달면 되겠네요.

 

 

 

정확한 회귀분석 모형을 보죠

 

소득재부분 지지정도=b1*소득 + b2*알통굵기 + b3*(소득*알통굵기)

 

세 번째 소득과 알통굵기를 곱하기 한 항을 교호항 또는 상호작용항(interaction term)이라 합니다. 여기서 b3가 0인지 아닌지, 또는 양수인지 음수인지가 궁금한 것입니다. 이게 알통굵기와 소득재분배지지 관계에서 소득의 조절효과를 검증하는 회귀게수입니다. 조절효과라는 것은 흔히 우리가 일상생활에서 흔히 사용하는 촉매, 또는 억제 효과를 이야기 합니다.

 

 

그럼 알통굵기가 증가함에 따라 소득재분배 지지가 어떻게 되는지 알아보기 위해 위 식의 양쪽을 알통굵기로 미분합니다. 그럼

 

(d소득재분배 지지/d알통굵기)=b2+b3*소득

 

여기서 미분을 했기 때문에 논문에 (d소득재분배 지지/d알통굵기)=marginal effect=알통굵기가 소득에 미치는 영향력의 크기라고 이야기하고 있죠.

 

따라서 b3=0이면 앍통굵기가 소득재분배 지지에 미치는 영향은 소득수준하고 관계가 없이 b2로서 일정하게 된다는 이야기입니다.

 

위 식이 잘 이해가 안되세요. 그럼 간단하게 저소득=0, 고소득=1라고 코딩했다고 하죠. 그럼 저소득과 고소득의 경우 아래 식에서 각각 0하고 1을 대입하면

 

알통굵기가 소득에 미치는 영향=b2* b3*소득에서

 

저소득은 알통굵기가 소득에 미치는 영향=b2

 

고소득은 알통굵기가 소득에 미치는 영향=b2+b3가 됩니다.

 

 

즉 기울기 차이가 저소득과 고소득간에 b3만큼 생깁니다. b3=0이면 기울기 차이, 즉 알통굵기기가 소득에 미치는 영향은 저소득과 고소득간에 차이가 없다는 이야기가 되고요.

 

잘 이해가 안되죠. 그럼 논문의 그림을 한번 볼까요.

 

 

 

 

 

 

 

 

소득재분배지지에 대한 일통굵기의 효과=b2+b3*소득계층을 그림에서 직선부분에서 대강 추측하면

 

아르헨티나=-0.1-0.4*소득계층

미국=0-0.25*소득계층

덴마크=0.05-0.1*소득계층

 

그래서 세나라다 b2는 사실상 0에 가깝고 b3은 상당한 의미가 있는 음수가 나옵니다(정확한 것은 통계 검증을 해야 합니다). b2는 0에 가깝다는 것은 소득수준=0인 집단, 즉 소득수준이 중간정도인 집단에서는 알통굵기가 소득재분배 지지에 전혀 영향을 못미친다는 이야기입니다. 또 소득수준과 관계없이 전체적으로 보면 알통굵기는 소득재분배와 영향이 없을 가능성이 상당히 있어 보입니다. 즉 알통굵기의 주효과가 상당히 의심스럽다는 것이죠. 이것도 새 모형을 다시 만들어 돌려 봐야 확실히 알 수 있고요.

 

그리고 b3가 음수가 나온 것은 소득수준이 높은 집단은 알통 굵기가 큰 사람이 소득재분배를 반대하고 소득수준이 평균이 집단은 알통굵기가 소득재분배와 관련이 없고, 소득수준이 낮은 집단은 알통굵기가 큰 사람이 소득재분배를 지지하는 경향이 있다는 것이죠.

 

즉 전체적으로 보면 알통굵기는 소득재분배에 미치는 주효과는 없어 보이지만 소득별 수준별로 상세히 살펴보면 알통굵기는 소득재분배 지지에 영향을 미친다는 것입니다. 이쪽 말로 쓰면 알통굴기와 소득재분배 지지와의 관계에서 소득 수준은 부(-)의 유의적인 조절효과가 있다고 합니다.

 

 

 

논문에 나온 통계 기술적인 점을 살펴보면

 

1. 변수를 표준화했다는 것은 변수를 평균을 0, 표준편차를 1로 하는 새로운 변수로 만들었다는 것입니다. 그래서 위 그래프의 소득계층의 값이 0인 경우는 실제 데이터 상에서는 소득수준이 중간정도인 집단을 이야기 합니다. 이렇게 표준화 되는 경우 회귀계수 b, 즉 기울기의 의미는 독립변수가 1 시그마 증가할 때 종속변수, 즉 소득재분배지지 정도가 몇 시그마 증가하는가를 의미합니다.

 

실제로 통계분석할 때 표준화를 하지 않습니다. SPSS에서 회귀분석을 하려고 하면 프로그램상에서 자동적으로 처리하여 표준화 한 상태의 회귀분석 결과를 보여 줍니다. 이 경우 절편 b0이 이론적으로 0으로 되어 회귀분석 결과물에서 상수항은 항상 0으로 나옵니다. 그래서 제일 처음 모형 식에서 일부러 상수항 b0을 제외했습니다. 그러나 조절효과를 볼 경우 상호작용항이 다공선성 문제를 일으킬 가능성이 있어 실제로 평균이동이나 표준화해서 상호작용항을 만듭니다.

 

2. 통제변수를 넣어도 결과가 robust하다는 이야기가 나오는데 이건 통제변수인 연령, 정치적 소신, 운동량 같은 변인을 독립변수로 추가로 집어 넣어도, 집어 넣지 않은 처음 모형의 결과와 거의 비슷하다는 이야기입니다. 정치적 소신의 경우 좀 이상한데 제가 직접 여러 가지 상황을 직접 돌려보지 않아 확실하게 이야기를 못하겠네요. 연령은 중요한 변수입니다. 연령이 소득재분배와 관계가 없다, 또는 통제변수로서 의미가 없다는 것과 좀 다릅니다. 연령이 높으면 생물적 충동보다 사회화의 영향이 더 커질 가능성이 있습니다.

 

3. 논문에 나오는 결정계수 r^2, F 값 등은 Baron & Kenny가 주장한 대로 교호항인 알통굵기*소득계층을 2단계에서 추가로 집어 넣었을 때 결정계수의 증가값, 결정계수 증가의 유의성을 검증하는 F 값인 것으로 보입니다. 전체 모형의 결정계수나 모형의 유의성을 검증하는 F 값이 아니고요. 그리고 한쪽꼬리 검증의 p 값이라고 했는데 이건 한쪽(one-tailed가 아닌 one-sided) 가설이라는 것을 의미하는 것 같고요. 아마 통계이론을 잘 몰라 잘못쓴 것 같고요. 학부 1학년 기초 통계인데. 제대로 알고 썼다면 논문에 한쪽 꼬리 검증이라는 표현을 전혀 할 필요가 없습니다.

 

그런데 하나의 변수만 2단계에서 추가로 넣을 경우 Baron & Kenny가 한 방식으로 2단계로 할 필요가 없습니다. 처음부터 설명변수로 소득계층, 알통굵기, 소득계층*알통굵기 세 변수를 한번에 집어 넣고 회귀분석을 하면 됩니다. 이 경우 교호항인 소득계층*알통굵기에서 나온 t 값을 제곱하면 논문에 나온 F 값과 일치합니다. 즉 t^2하면 논문에 나온 F 값이 나옵니다. 또 p 값도 같고요. 쓸데 없는 짓 하는 것이죠.

 

4. 전체 모형의 적합도에 대한 결과가 없습니다. 물론 결정계수가 크다고 해서 꼭 좋은 것은 아니지만 결정계수 값이 너무 낮으면 좀 더 세밀한 분석이 필요합니다. 적합도 결과가 너무 안 좋아 의도적으로 안쓴 것 같습니다. 이건 가장 초보적인 결과물이거든요.

 

 

 

 

 

위의 통계기술적인 면을 빼고 언급할 상황은

 

1. 덴마크의 경우 기울기가 다른 두 나라에 비해 상당히 약합니다. 이건 나라별 차이일 수 있고요. 사회경제적인 측면에서 덴마크가 상대적으로 소득재분배가 잘되어 그 욕구의 변동이 다른 두 나라보다 작을 수가 있습니다.

 

또 하나는 연령에 따른 차이일 수 있습니다. 덴마크 설문응답자의 나이의 평균은 50인데 반해 아르헨티나나 미국 설문응답자의 평균 나이는 20세에 불과합니다. 연령별로 어릴때는 생물학적 충동이 강하다가 나이가 들면 사회화의 영향이 커다 이런 가설을 검증하는 논문이 되었으면 더 좋았을 것 같습니다.

 

사실 우리가 관심을 갖는 것은 사회화가 어느 정도 진행된 30-60대 연령층의 사회재분배 지지에 대한 설명변수를 찾는 것인데 이렇게 하지 않고 아르헨티나나 미국에서 평균 연령이 20세에 불과한 집단을 대상으로 했다는 것은 생물학적 요인, 즉 덩치를 의미있는 변인으로 만들려고 한 조작된 의도로 밖에 볼 수 없습니다.

 

2. 회귀분석에 조심해야 할 현상이 masking 현상이라는 것이 있습니다. 이것은 극단의 경우가 있으면 전체적인 경향을 왜곡시켜 회귀계수 값을 심각하게 왜곡시키는 경우입니다. 예를 들어 돈 많이 버는 남자 인기 배우는 운동을 많이 합니다. 또 소득수준이 매우 낮은 조폭 꼬봉이 들도 운동을 매우 열심히 합니다. 이들이 응답자에 포함되면 대부분의 일반적인 사람들은 알통굵기와 소득재분배지지와 전혀 관계가 없는데 위의 같은 결과가 나올 수 있습니다.

 

3. 위의 저적한 문제가 전혀 없다고 하죠. 그럼 소득 수준에 따라서 알통굵기가 소득재분배지지에 왜 영향을 미치는 가에 대한 합리적인 설명이 필요하죠.

 

이럴 가능성이 있습니다. 소득 수준이 낮은 경우 매우 공격적인 성향인 사람은 소득재분배 요구도 강하고, 이를 해소할 수 없으니까 소득재분배 지지와 관계없이 생물학적 육체 강화을 통해 소득에 대한 불만을 해소를 할 가능성이 있습니다. 또한 소득수준이 높은 경우 자기 이익을 극단적으로 챙기는 사람은 당연히 소득재분배를 지지하지 않고, 또한 소득재분배 지지와 관계없이 자기 몸관리를 잘 할 수 있다는 것이죠.

 

그래서 소득재분배 지지와 알통굵기는 논리적으로 아무런 관계가 없지만 눈에 보이는 현상적으로는 소득 수준 별로 보면 마치 상관관계가 있는 것처럼 보인다는 것이죠.

 

 

그럼 실제로 통계작업은 어떻게 하는지 한번 보죠.

 

1. 먼저 데이터를 아래 표와 같이 모읍니다. 엑셀에서 하면 됩니다.

 

id

국가

연령

소득계층

알통굵기

소득*알통

1

1

21

3

34.2

 

2

1

34

2

28.7

 

3

2

58

2

32.4

 

 

여기서 교호항인 소득계층*알통굵기 값은 통계프로그램에서 작업을 해서 만듭니다.

 

 

2. 그런 다음 SPSS에서 이 엑셀 데이터 표를 읽은 다음 회귀분석을 하면 됩니다. 표준화는 기본사양으로 자동적으로 나옵니다.

 

3. 위 논문에서 Baron & Kenny가 한 단계별로 변수를 추가로 집어 넣는 방식으로 하였기 때문에 블록을 설정하여 설명변수를 집어 넣습니다.

 

1단계에서는 설명변수로 소득계층과 알통굵기를 집어 넣고요.

2단계에서는 설명변수로 추가로 교호항인 소득계층*알통굵기 변수를 집어 넣습니다.

 

그런 다음 메뉴에서 추가로 증가되는 결정계수 부분을 선택하면 위 논문에 나온 결과를 얻을 수 있습니다.

알통보수.pdf
0.22MB