연구모형만들기/연구모형만들기

모형선택1

학위논문통계 2022. 8. 5. 11:22

오자 탈자 체크는 나중에 하겠습니다.

 

 

다시 모델 선택의 문제로 자세히 알아보기로 하죠.

 

예를 들어 회귀분석을 한다고 하죠.

 

그럼 현실적인 사회과학 논문에서는 분석하고자 하는 변수, 즉 종속변수 Y를 선정하고, 이 Y에 영향을 미치는 독립변수를 X1, X2, X3를 선정했다고 하죠. 예를 들어 이직의도 Y에 영향을 미치는 요인으로 경제적 스트레스 X1, 환경적 스트레스 X2, 인과관계 스트레스 X3 이렇게 잡아다고 하죠.

 

사회과학 논문에서는 SPSS에 종속변수로 이직의도를 잡고 독립변수에 경제적 스트레스 X1, 환경적 스트레스 X2, 인과관계 스트레스 X3을 선정해서 돌리면 됩니다. 그래서 나온 결과에서 유의적으로 나오면 가설이 채택되었다고 하고, 유의적으로 나오지 않으면 가설이 기각되었다고 판단하면 됩니다.

 

그러나 모형 선택의 문제로 가면 매우 복잡합니다. 우리가 상상할 수 있는 모형을 한번 생각해 보죠.

 

M0:가장 간단한 모형: Y=b0

 

즉 3개의 스트레스 종류 독립변수가 이직의도에 전혀 영향을 미치지 못하는 모형입니다.

 

 

M1: 하나의 독립변수만 영향을 미치는 모형

 

M11: Y=b0+b1*X1, M12; Y=b0+b1*X2, M13: Y=b0+b1*X3

 

이렇게 3개의 모형이 나올 수 있습니다.

 

M2: 두개의 독립변수가 영향을 미치는 모형

 

M21: Y=b0+b1*X1+b2*X2, M22; Y=b0+b1*X1+b2*X3, M23: Y=b0+b1*X2+b2*X3

 

M3: 세 개의 독립변수가 모두 영향을 미치는 모형

 

M3: Y=b0+b1*X1+b2*X2+b3*X3

 

 

이렇게 간단하게만 생각해도 8개의 회귀분석 모형이 생깁니다. 이 8개의 회귀분석 모형에서 우리가 가지고 있는 데이터에 가장 적합한 모형을 찾는 것이 모형선택의 문제라고 합니다.

 

 

이것만 있을까요. 2차항, 또는 3차항, 4차항이 독립변수로 들어가는 모형도 생각할 수 있습니다. 즉, X1^2, X1^3, X1^4, X2^2,....

 

또는 독립변수들간의 상호작용항이 다시 독립변수로 들어가는 모형을 설정할 수 있습니다. 즉, X1*X2, X1*X3, X2*X3 이런 상호작용항이 독립변수로 들어갈 수 있습니다.

 

사실 이런 변수들은 별 문제는 안됩니다. X1^2는 실제로 계산해서 데이터 뒤에 X4로 이름을 만들어 생성하면 됩니다. 또 X1*X2도 실제로 계산해서 데이터 뒤에 X5로 이름을 준 다음 이런 X4, X5 이런 변수도 모형의 독립변수로 취급하여 처리하면 됩니다.

 

 

 

 

다음 이원분산분석을 한번 생각해보죠.

 

대통령 지지율이 성별(a)과 연령(b)에 따라 달라진다고 보죠.

 

그럼 우리가 상상할 수 있는 이원분산분석의 모형은

 

M0:가장 간단한 모형: Y=u

 

즉 성별과 연령에 따라 대통령 지지율에서 차이가 없다.

 

 

M1: 하나의 요인만 영향을 미치는 모형

 

M11: Y=u+a(i), M12; Y=u+b(j)

 

즉 성별만 대통령 지지에 영향을 미치는 모형과 연령만 대통령 지지에 영향을 미치는 모형이 나올 수 있습니다.

 

M2: 두 개 요인의 상호작용항이 영향을 미치는 모형

 

M21: Y=u, M22; Y=u+a(i)+ab(ij), M23: Y=u+b(i)+ab(ij), M24; Y=u+a(i)+b(j)+ab(ij)

 

 

즉, 간단한 이원분산분석 모형을 고려해도 실제로 우리가 선택할 수 있는 모형은 굉장히 많습니다. 이 많은 모형 중에서 우리가 가지고 있는 데이터에 가장 적절한 모형을 선택하는 것을 모형 선택(model selection)이라고 합니다.

 

 

그래서 모형선택이 뭘 하는 작업인지 어느 정도 감이 왔을 거라 봅니다.

 

그럼 여기서 좀 더 근본적이고 또 현실적인 문제를 생각해 볼 수 있습니다.

 

1) 가장 좋은 모형이라는 것이 뭘 의미하는가

 

==> 첫째, 인과관계가 모두 유의적으로 나와야 한다.

둘째, 가능하면 간단한 모형을 선택한다.

셋째, 적합도가 좋아야 한다. 즉 설명력이 좋아야 한다.

 

문제는 둘째와 셋째가 상충적인 관계라는 것입니다. 즉 모형을 복잡하게 하면 적합도는 무조건 높아지게 되어 있습니다. 이에 반해 모형을 간단하게 하면 모형의 적합도는 떨어지고요. 이 상충관계에서 통계적으로, 또는 과학적으로 하는 방법이 없을까 하는 문제가 생깁니다.

 

 

2) 1) 문제를 해결했다고 해도 이 수많은 모형들을 다 어떻게 비교 분석할 수 있을까

 

 

 

==> 이런 문제 때문에 현실적으로 생각해낸 것이 내포모형(nested model)입니다. 앞에서도 이야기했지만 내포모형은 모형 하나를 가리키는 것이 아니고 모형들의 집합을 이야기합니다. 이 내포모형 안에 있는 모형들간에는 내포관계가 성립이 되어야 합니다.

 

 

회귀분석에서

 

내포모형: { Y=b0, Y=b0+b1*X1, Y=b0+b1*X1+b2*X2 }

비내포모형: { Y=b0, Y=b0+b1*X1, Y=b0+b1*X2 }

 

즉, 내포모형에서는 내포모형에 포함된 모형들 간에는 서로 더 간단하고, 더 복잡하고 이런 관계가 성립합니다. 이에 반해 비내포모형에서는

Y=b0+b1*X1와 Y=b0+b1*X2 모형간에는 누가 더 간단하고 누가 더 복잡하고 이런 관계가 성립이 되지 않습니다.

 

회귀분석에서 이 내포모형을 적용하고 싶으면 SPSS==> 회귀분석을 가면 enter라고 되어 있는 부분이 있습니다. 여기에서 전진선택이나 후진제거 이런 방식을 택하면 이 내포모형을 적용해서 가장 바람직한 모형을 선택해 줍니다.

 

예를 들어 전진선택을 선택하면 먼저 1단계에서 종속변수 Y와 가장 밀접한 독립변수, 예를 들어 X2를 선택하고, 2단계에서는 일단 X2가 독립변수로 들어간 상태에서 추가로 다른 독립변수가 더 들어갈 경우 가장 바람직한 모형, 예를 들어 (X2, X5)를 선택하고 3단계에서는 (X2, X5)가 이미 들어가 있는 모형에서 추가로 다른 독립변수를 하나 더 넣을 경우 가장 바람직한 모형, 예를 들어 (X2, X5, X1) 이런 식으로 의미있는 추가 투입이 나올 때까지 계속 진행을 합니다.

 

 

위계적 회귀분석

 

조절효과를 보는 위계적 회귀분석에서 독립변수는 X, 조절변수는 M, 길고 종속변수를 Y라고 하면 흔히 논문에서 하는 3단계 분석은 내포모형이 됩니다.

 

내포모형: { Y=b0+b1*X, Y=b0+b1*X+b2*M, Y=b0+b1*X+b2*M+b3*XM }

 

이것도 내포모형입니다.

 

 

이원분산분석

내포모형: { Y=u, Y=u+a(i), Y=u+a(i)+ab(ij) }, 또는 {Y=u, Y=u+b(j), Y=u+b(j)+ab(ij) }

 

비내포모형: { Y=u+a(i), Y=u+b(j) }

 

 

잠재성장모형

 

통상 정부 패널데이타로 분석하는 잠재성장모형은 크게 2단계 분석을 합니다. 구조방정식을 분석하기 전에 1단계로 연구변수들이 시간 t에 따라 어떻게 변하는지 이걸 먼저 분석해야 합니다. 그래서 여기서 고려하는 모형은

 

M0, Y=b0 ; 즉 시간에 따라 연구변수가 전혀 변하지 않는다.

M1, Y=b0+b1*t: 즉 시간에 따라 연구변수가 선형적으로 변한다.

M2, Y=b0+b1*t+b2*t^2: 즉 시간에 따라 연구변수가 2차식으로 변한다.

 

그럼

 

내포모형: {M0, M1, M2}은 내포모형이 되고 이 내포모형 안에 있는 M0, M1, M2 중 어느 모형이 가장 적절한지 하나를 선택해야 합니다. 이렇게 각 연구변수들 마다 가장 적합한 모형을 선택한 다음 구조방정식을 적용합니다.

 

통상 M0의 경우 연구변수로서 가치가 없기 때문에 이 경우가 나오면 연구모형을 수정해야 합니다. 또 복잡한 이차항이 들어가 있는 M2의 경우 해석상에 어려움이 있습니다. 따라서 시간에 따라 선형적으로 나오는 M1인 경우를 연구변수로 삼는 것이 가장 바람직합니다.

 

 

 

 

'연구모형만들기 > 연구모형만들기' 카테고리의 다른 글

모형선택2  (0) 2022.08.07
모형선택(model selection)과 가설검증  (0) 2022.08.01
연구모형의 종류입니다.  (0) 2012.03.22