인공지능관련/인공지능(AI)

적합도2

학위논문통계 2017. 5. 20. 14:25

 

 

지난번 적합도 이야기를 더 해보죠.

 

1. 선형모형

 

일단 우리는 간단한 선형모형으로 시작한다고 했는데 통계학에서 선형모형은 일반적으로 수학에서 쓰는 선형모형 개념하고 조금 다릅니다.

 

즉 회귀분석에서는 선행결합은 독립변수들간의 선형결합, b0+b1*독립1+b2*독립2로 보지 않고 모수의 b0, b1, b2들의 선형결합으로 봅니다. 이 말이 뭔가 하면 예를 들어

 

Y=b0+b1*X+b2*X2+b3*X3

 

이런 모형은 분명히 직선모양이 아니고 다항식, 즉 곡선 모양이지만 회귀분석에서는 이걸 선형결합, 즉 직선의 식이라고 봅니다. X=X1, X2=X2, X3=X3로 새로 변수 이름을 바꾸면 이건 다시

 

Y=b0+b1*X+b2*X2+b3*X3

 

와 같이 선형모형식이 됩니다.

 

 

 

2. 위계적 회귀분석과 구조방정식에서 적합도와 모형선택 문제

 

앞에서 적합도와 모형선택에 대해 아직도 감이 좀 안 오시는 분들이 있을 겁니다.

 

여기 오시는 분들은 학위논문이나 저널 논문을 쓰는 분들이 많으니까 요새 논문에 자주 쓰는 조절변수가 들어가는 위계적 회귀분석 모형과 매개변수가 들어가는 구조방정식 모형에서 그 예를 들어 보겠습니다.

 

 

1) 조절효과 검증을 위한 위계적 회귀분석

 

위계적 회귀분석의 정의를 이야기하자면 좀 골치 아파 하는 분들이 있으니까 그냥 넘어가겠습니다. 통계분석 개념이 아니라 회귀분석 모형들의 집합이라는 개념입니다.

 

 

부모의 양육태도는 아동의 학교생활에 영향을 미친다고 생각해보죠. 감독-방임, 애정-학대, 일관성-비일관성 이런 부모들의 양육태도가 아동의 학교 생활, 즉, 선생과의 관계, 친구들과의 관계에 영향을 미칠거라 생각을 해보죠.

 

이런 인과관계가 성별에 따라서, 즉 남학생일 경우와 여학생의 경우 좀 다르지 않을까 하는 생각을 할 수 있습니다. 그럼 성별을 조절변수로 해서 남학생과 여학생간에 이런 인과관계에서 차이가 있으면 조절효과가 있다고 합니다. 사회과학 용어입니다. 통계학에서는 이런 용어를 쓰지 않고 상호작용효과라고 합니다. 그럼 수식으로 쓰보면

 

 

독립변수(원인변수)인 부모 양육태도를 X, 종속변수(결과변수)인 Y, 조절변수인 성별을 M(mediator)이라고 하죠. 그럼 위계적 회귀분석 모형은 다음과 같습니다.

 

                                          Y=b0+b1X+b2M+b3(X*M)

=b0+b1*부모양육태도+b2*성별+b3*(부모양육태도*성별)

 

 

이런 식으로 쓸 수 있습니다. 데이터 분석을 해서 b3=0으로 결정되면 성별의 조절효과가 없다고 하고 b3=0이 아니다라고 결정되면 성별의 조절효과가 있다고 합니다.

 

이원분산분석의 용어를 사용하면 만약 b2=0이면 성별의 주효과(main effect)가 없다고 하고 b2=0이 아니면 성별의 주효과가 있다고 합니다. 조절효과는 이원분산분석이나 회귀분석이나 통계학에서는 상호작용효과(interaction effect)라고 합니다.

 

 

만약 b3=0, 즉 성별의 조절효과가 없다고 하면 앞에서 이야기한 절약의 법칙, 오캄의 면도날 법칙에서 의해 더 간단한 모형을 선택하는 것이 좋습니다. 즉 다음과 같은 모형입니다.

 

                                                           Y=b0+b1X+b2M

=b0+b1*부모양육태도+b2*성별

 

여기서 다시 회귀분석을 하니 b2=0이라는 결과를 얻었습니다. 그럼 위의 모형보다 더 간단한 모형을 선택하는 것이 좋겠지요. 그럼 다음과 같은 모형이 됩니다.

 

                                                             Y=b0+b1X

                                                               =b0+b1*부모양육태도

 

이 모형을 가지고 다시 회귀분석을 하니 b1=0이라는 결과를 얻었습니다. 그럼 다시 절약의 법칙을 적용하여 더 간단한 모형

 

                                                              Y=b0

 

이라는 모형을 적용해 볼 수 있습니다. 가장 간단한 최종 모형은 사실 정규분포 가정에서 평균을 추정하고 가설검증하는 모형과 같습니다.

 

그럼 우리는 사실상 넷 개의 모형을 설정한 것입니다. 즉

 

M0: Y=b0

M1: Y=b0+b1*부모양육태도

M2: Y=b0+b1*부모양육태도+b2*성별

M3: Y=b0+b1*부모양육태도+b2*성별+b3*(부모양육태도*성별)

 

 

그래서 여러분이 가지고 있는 데이터에서 어떤 모형이 가장 좋은 것인가를 선택하는 것입니다. 보면 M0에서 M3로 갈수록 모형이 복잡해집니다. 그래서 적합도는 M3가 가장 좋습니다.

 

 

통상 사회과학 논문에서는 SPSS를 사용하여 M1을 1단계, M2을 2단계, M3는 3단계라고 해서 각 모형의 결과를 표에 다 집어 넣습니다. 그러나 성별의 조절효과, 즉 b3=0인가 아닌가를 검증하려면 마지막 M3, 즉 3단계 분석만 하면 됩니다. 1단계, 2단계가 필요없습니다.

 

그럼에도 불구하고 한국 사회과학에서는 이 M0부터 M3모형까지 설정하는 것이 모형선택을 하기 위해서 한다는 맥락을 이해를 못하고 무조건 1단계(M1)부터 3단계(M3)까지 결과를 다 넣으라고 합니다.

 

 

 

그럼 M0에서 M3로 갈 때 마다 적합도가 상승한다고 했는데 그 적합도 상승분을 어떻게 구할 수 있을까요. 그게 SPSS에서 단계별 회귀분석을 하면 나오는 값 dR2값입니다.

 

1단계(M1)에서 2단계(M2) 모형으로 갈 때 dR2=0.1이라고 하면 2단계 결정계수 값이 1단계 결정계수 값보다 0.1 커졌다는 이야기고, 모형의 설명력(적합도)이 10% 커졌다는 이야기입니다. 즉 1단계 모형에서 성별이라는 조절변수를 하나 더 추가했더니 모형의 설명력이 10%, 적합도가 10% 정도 상승했다는 이야기입니다.

 

이런 설명력, 적합도 상승이 통계적으로 의미가 있는지 검증을 해야 합니다. 이것도 SPSS에서 F 검증을 해줍니다. 만약 이 F 검증에서 유의적이라 나오면 적합도 상승이 의미가 있을 정도로 상승했다는 이야기이니까 M1보다 M2모형을 선택하는 것이 좋다는 이야기입니다.

 

 

만약 M1모형보다 M2모형이 좋다고 나왔다고 하죠. 그럼 이젠 M2모형과 조금 더 복잡한 모형 M3와 비교를 해야 하겠죠. 그럼 이 경우의 dR2값을 구하고 이 적합도 상승(설명력 상승)에 대한 F 검증을 다시 한다는 것이죠. 그래서 이 F 검증에서 유의적이면 좀 더 복잡한 모형 M3를 최종 우리가 원하는 모형으로 결정하고 F 검증에서 유의하지 않다고 나오면 다시 좀 더 간단한 모형 M2를 최종모형으로 한다는 것이죠.

 

 

 

학계에서는 이런 모형선택의 문제를 별로 심각하게 생각하지 않았습니다. 주로 어떤 변수가 유의적인가 아닌가 즉 종속변수에 영향을 미치는 변수인가 아닌가 하는 통계 검증에만 신경을 썼기 때문입니다.

 

그러니 인공지능에서는 이젠 이 모형선택의 문제가 매우 심각한 이슈가 됩니다. 왜냐하면 인공지능에서는 외부환경에서 들어온 input(즉 독립변수)을 보면 최종 결과라는 행동을 해야 하기 때문입니다. 즉 의사가 수술을 해야 하는지 아닌지 실행을 해야 하고, 판사가 유죄인지 무죄인지 결정을 내려야 합니다.

 

따라서 우리가 상상할 수 있는 수 많은 모형 중에서 최종 결과를 뽑아내는, 우리의 눈에는 보이지 않는 블랙박스를 구현할 가장 바람직한 모형을 선택하는 것이 결정적인 요소이기 때문입니다.

 

바로 앞에서 설명한 바와 같이 단순한 모형 M1부터 M3까지 전진하는 모형선택법을 전진선택법이라고 하고 제일 처음에 설명한 조절변수가 있는 M3부터 가장 단순한 모형 M1까지 추적해 나가는 모형선택법을 후진제거법이라 합니다. 여러 가지 다른 방법들이 있고, 통계학 책마다 용어들이 좀 다르지만 개념을 비슷한 것입니다.

 

 

논문 쓰시는 분들이 이 조절효과에 대해서 매우 어렵게 생각하시는 분들이 많습니다. 개념을 별 어려운 것이 아닙니다.

부모의 양육태도와 아동의 학교생활의 경우를 생각해보죠. 그럼 일단 부모의 양육태도가 아동의 학교생활에 영향을 미친다는 모형에 대해서 회귀분석을 실시합니다. 그러면 각 양육태도가 학교생활에 영향을 미치는 회귀계수들 값이 나올 겁니다.

 

그럼 다음 단계는 이 전체 데이터를 남학생의 경우, 여학생의 경우의 두 개의 데이터로 분리를 합니다. 그리고 남학생 데이터의 경우 회귀분석해서 부모양육태도가 학교생활에 미치는 결과를 뽑아냅니다. 또 여학생 데이터도 똑같은 회귀분석 모형을 적용해 결과를 뽑아냅니다.

 

성별의 조절효과를 본다는 것은 남학생 데이터에서 구한 회귀계수와 여학생 데이터에서 구한 회귀계수가 같은가 아니면 다른가 이걸 보겠다는 이야기입니다.

 

 

조절변수가 연속형일 경우도 마찬가지입니다. 실제 분석시는 연속형 변수를 쓰지만 해석시는 위의 성별과 같이 이진 변수로 해석하면 이해하기 쉽습니다.

 

예를 들어 사회복지에서 조절변수로 많이 쓰는 사회적 지지 같은 경우 사회적 지지라는 연속형 변수가 있으면 평균을 중심으로 낮은 집단을 0, 높은 집단을 1로 놓고 해석을 하면 됩니다.

 

즉 사회적 지지가 낮은 집단 데이터를 따로 뽑고, 사회적 지지가 높은 집단의 데이터를 따로 뽑고, 각각의 데이터에서 연구모형을 회귀분석을 한 다음 거기서 나온 각각의 회귀계수의 값들이 같은가 다른가를 보는 것입니다.

 

 

성별이나 또는 사회적 지지를 이진변수로 처리해 할 경우 코딩을 0과 1로 하는 것이 좋습니다. 이게 통계 결과를 보고 해석할 때 편합니다. 다르게 코딩해도 조절효과 검증 결과는 달라지지 않습니다.

 

 

 

2) 매개변수가 들어 있는 구조방정식

 

이것과 가공 데이터로 회귀분석시 적합도를 구하는 실제 계산법은 다음 시간에 하겠습니다.

'인공지능관련 > 인공지능(AI)' 카테고리의 다른 글

적합도3  (0) 2017.06.12
적합도3  (0) 2017.05.21
적합도1, 모형 선택  (0) 2017.05.11
연관분석3  (0) 2017.03.15
연관분석2  (0) 2017.03.01