이 기술통계는 4장 실증분석 맨 처음에 하는 작업입니다.
이 자체가 연구 목적이나 연구 가설을 검증하는 것은 아닙니다. 그러나 이 기술통계 결과를 통하여 이전의 데이타 변환 작업이 제대로 되었는지, 또는 변수 치환을 해야 하는지을 점검해 볼 수 있습니다.
통상 SPSS에서 최소값, 최대값, 평균, 표준편차를 구해주고 옵션에 왜도와 첨도를 체크하면 왜도와 첨도까지 구해줍니다. 평균과 표준편차를 구해주니까 여기서는 연속형 변수만 취급합니다. 즉 연구모형에 있는 변수를 넣으면 됩니다. 범주형 자료는 여기서 분석하는 것이 아니라 Frequencies나 Crosstabs를 이용해야 합니다.
SPSS ==> Analyze ==> Descripitive Ststistics ==> Descripitives
한 다음

옵션에서

왜도와 첨도를 체크하시면 됩니다. 그럼 결과로

를 얻을 수 있습니다.
1. 통상 변수는 Likert 5점 척도이기때문에 최소값과 최대값, 평균이 5 사이에 있어야 합니다. 그렇지 않으면 데이타에 잘못이 있기 때문에 데이타를 수정해야 합니다.
2. 왜도는 분포의 치우침, 첨도는 분포의 뽀쪽 정도를 표시하는 척도입니다. 완전한 정규분포인 경우 왜도와 첨도는 0의 값을 갔습니다. 통상 -1과 1 사이에 있으면 정규분포한다고 가정해도 됩니다.
3. 왜도와 첨도의 절대값이 1을 넘으면 통상 그 변수는 변환을 하지만
1) 종속변수의 분포가 정규분포과 아닌 지수분포나 포아송 분포를 할 경우 일반화 선형모형(Generalized Linear Model)을 적용해야 합니다. 실제 논문 통계 분석에서는 이런 경우가 거의 없기 때문에 신경쓸 필요가 없는데 이공계 자료에서는 나올 수 있습니다. 이 경우 통계 전문가에게 부탁을 해야 합니다. 소위 지수분포계(Exponential Family)에 해당하는 분포를 회귀분석할 때는 link라는 것을 써야 합니다.
2) 경제학 변수의 경우 왜도가 심각하게 문제가 있는 경우가 많습니다. 예를 들어 소득이라든지, 아파트 가격이라든지 이런 경우는 분포가 왼쪽에 심각하게 몰려 있고, 오른쪽에는 극소수가 차지하고 있습니다. 따라서 이런 경우 우리가 흔히 구하는 표본 평균을 사용하면 안됩니다. 표본 평균을 사용하면 오른쪽의 소수지만 극단치 값에 의해서 표본 평균값이 상당히 과대 평가가 됩니다. 이 경우 표본평균보다 중앙값(median)이 좋습니다.
3) 위의 경제학 변수인 경우 정규분포화하기 위해 log나 x^2 변환을 합니다. log는 0에서 정의되지 않기 때문에 원 변수가 0의 값만 가지지 않으면 log 변환을 하는 것이 일반적입니다. 왜 log 변환이 좋은가 하면 회귀분석을 한 경우 회귀계수 값이 해석이 되기 때문입니다. 즉 원 모형은
이걸 로그 치환을 하면
이 되는데 이 경우 b1은 탄력성의 개념이 됩니다.
4) 왜도와 첨도가 너무 벗어나지 않으면 그냥 원 변수를 사용해도 됩니다. 통상적으로 표본 수가 어느 정도 커지만 일반적인 통계 분석에서는 변수의 분포가 정규분포가 아니더라도 표본평균이 중심극한정리(Cerntal Limit Theory)의 의해 정규분포로 가고, 가설 검증에서도 LRT(우도비 검증)도 극한 분포로 X2분포로 갑니다. 애초에 표본 수가 너무 적은 실험계획의 경우는 비모수 통계를 해야 하고요. 그러나 비모수 통계는 기본적인 회귀분석 조차도 할 수 없는 한계가 있습니다.
'기술통계와 상관분석' 카테고리의 다른 글
상관관계 (0) | 2024.07.18 |
---|