논문통계해석하기/논문통계해석

논문통계 해석

학위논문통계 2013. 3. 5. 02:12

 

많은 분들이 통계 해석하는데 걱정들을 많이 하는데요 생각보다 어렵지 않습니다.

 

1. 먼저 제일 먼저 걱정하는 것들이 t, F, X2 (카이제곱이라 읽습니다) 보면 겁을 냅니다. 겁을 낼 필요가 전혀 없습니다. 이것들은 통계학에서 나오는 분포들인데 통계 전공아닌 사람은 전혀 알 필요가 없습니다. 더구나 위의 분포는 흔히 정규분포와 같이 현실에서 관찰되는 분포도 아니고 통계 이론 전개상에서 나오는 완전한 이론적인 분포입니다(t 분포는 분포 꼬리가 두꺼워서 리스크 관리 분야에서 사용될 수 있습니다). 그래서 통계을 전공하지 않은 분들은 이 분포에 대해서 전혀 알 필요가 없습니다.

 

2. 통계표에서 여러분이 알아야 할 것은 빈도, 백분율(%), 평균, 상관계수와 회귀계수, 그리고 그 부호, 그리고 p 값입니다. 표준편차나 표준오차까지도 알 필요가 없습니다. 빈도, 백분율, 평균은 다 아시는 것이고요.

 

3. 상관계수는 두 변수간에 직선관계가 있는지 알아보는 것입니다. 정(+)의 상관관계는 한 변수가 커질 때 다른 변수도 상승하는 것입니다. 키와 몸무게의 관계가 그렇지요, 즉 키가 커지면 몸무게도 커지지요. 그러면 상관계수가 양의 값을 같습니다. 반면에 허리둘레와 비만도를 보면 부(-)의 관계가 있겠지요. 허리둘레가 커지면 비만도 치수는 떨어지겠지요. 그리면 상관계수는 음의 값을 같습니다.

 

==> 이 부분 수정합니다. 허리둘레가 굵으면 비만도가 높아져 정(+)의 상관관계가 나오겠죠. 예를 잘못 들었네요. 운동량과 비만도의 경우가 부(-)의 상관관계의 예가 되겠습니다.

 

상관계수는 -1에서 1사이에 있고, 1에 가까우면 뚜렷하게 정(+)의 상관관계가 있고, -1에 가까우면 뚜렷하게 부(-)의 상관관계가 있습니다. 그리고 상관계수가 0에 가까우면 두 변수는 관계가 없다, 두 변수가 독립적이라 봅니다(통계 이론상 엄밀한 말은 아닌데 예외적인 사항은 현학적인 예에 불과합니다)

 

4. 그 다음 회귀분석에서 회귀계수인데 이것 상관계수랑 의미상 비슷합니다. 단지 상관계수, 즉 상관분석이랑 다른 점은

 

1) 상관계수는 단순히 두 변수간에 직선관계가 있는지 보는 반면에 회귀분석은 원인에 해당하는 변수(독립변수)와 결과에 해당하는 변수(종속변수)를 연구자가 미리 설정을 해야 합니다. 이 원인과 결과에 해당하는 변수를 설정하는 것은 특별한 법칙이 있는 것이 아니라 상식적으로, 논리적으로 합당하면 됩니다.

 

2) 상관계수는 -1과 1 사이에 있는 값이지만 회귀계수는 그 범위가 정해져 있지 않습니다. 엄청나게 큰 값을 가질 수 도 있습니다. 척도를 달라하면 회귀계수가 큰 값이 나올 수가 있습니다.

 

예를 들어 키가 몸무게에 미치는 영향에 대해 분석할 경우 키는 m 단위로 재고 몸무게는 g 단위로 재면 회귀계수는 키가 1m 클 때 몸무게가 몇 g 커지는지에 대한 값입니다. 이 경우 회귀 계수가 엄청 커지겠죠. 또한 회귀계수는 중고등학교에서 배운 일차 직선의 기울기에 해당하는 값입니다.

 

반대로 키를 mm로 재고 몸무게를 Kg으로 재면 회귀계수가 사실상 0이 나옵니다. 회귀계수가 거의 0에 가깝게 나온다고 해서 키가 몸무게에 영향을 미치지 않는다고 해석하면 안됩니다. 이런 이유 때문에 통계적으로 처리하는 것입니다.

 

3) 상관분석은 두 변수간에서만 관계를 이야기 하는데 회귀분석은 독립변수가 여러개의 변수가 될 수 있습니다. 이럴 경우 흔히들 다중회귀분석이라고들 많이 하는데 대학원 수준의 통계에 들어가면 단순회귀나 다중회귀를 사실상 구별하지 않습니다. 단순회귀의 경우도 상수항도 이론상 또 수학적으로 [1, 1, 1,...1] 이라는 데이터 값이 들어가서 사실상 두 개의 독립변수가 들어가는 것으로 봅니다(실제 통계 프로그램 안에서 그렇게 처리합니다).

 

 

4. 제일 이해하기 힘든 것이 p 값입니다. p 값은 0에서 1사이에 있는 값인데 법칙은 간단합니다. p 값은 통계학에서 이론적으로 그리 중요한 값은 아닙니다. 그러나 해석하기에 편하기 때문에 표에 많이 집어 넣습니다.

 

1) p 값이 0에 가까울수록 차이가 뚜렷하다, 상관관계가 뚜렷하다, 영향력이 뚜렷하다 이런 식으로 해석됩니다.

 

2) p 값이 1에 가까울수록 차이가 없다, 상관관계가 없다, 영향력이 없다 이런 식으로 해석됩니다.

 

흔히들 표 밑에 * p<.05, ** p<.01, *** p<.001를 적어 표 안에 p 값이 0.05보다 작으면 *, 0.01보다 작으로 **, 0.001보다 작으면 ***를 붙입니다. 1)에서 p 값이 0에 가까울수록 차이가 뚜렷하고, 상관관계가 뚜렷하고, 영향력이 뚜렷하다고 했으니까 *표가 많이 붙을수록 차이가 뚜렷하고, 상관관계가 뚜렷하고, 영향력이 뚜렷한 것입니다. 즉 논문에서 제사한 가설(대립가설)을 강력하게 지지하는 것입니다.

 

이 *표는 통계학에서 사용하는 표시는 아닙니다. SPSS에서 사용하는 표시인데 사회과학 저널에서 거의 관습적으로 사용합니다.

 

0.05, 0.01, 0.001를 유의수준이라고 하는데 이건 신뢰구간에서 95%, 99%, 99.9% 신뢰수준과 동전의 양면과 같은 측면이 있습니다. 신뢰구간에서는 90% 신뢰수준도 많이 사용하기 때문에 유의수준을 0.1로 잡고 해도 됩니다. 상경대에서는 0.1로 잡고도 많이 하는데 일반사회과학에서는 0.05부터 시작을 많이 합니다.

 

 

5. p 값의 정확한 의미는 논문의 가설(대립가설)을 받아들일 때 범할 수 있는 에러 확률입니다. 좀 어렵지요. 이 가설 검증은 판사가 재판을 하는 경우가 거의 똑 같습니다.

 

귀무가설: 피고인인 무죄이다

대립가설(논문의 가설): 피고인이 유죄이다.

 

따라서 피고인인 유죄하는 뚜렷한 증거가 없으면 재판관은 유죄를 선고하면 안되겠죠. 피고인인 실제로는 무죄인데도 증거를 보고 판사가 유죄로 판결을 내렸을 경우 이건 판결을 잘 못 내린 것이죠. 즉 이 잘못된 판결을 내릴 확률이 p 값입니다.

 

우리의 경우 데이터를 보고 가설(대립가설)을 채택했는데 사실상 대립가설이 아닌 경우입니다.

 

 

 

'논문통계해석하기 > 논문통계해석' 카테고리의 다른 글

통계 결과가 안 좋을 때  (1) 2016.10.26