논문통계해석하기

0902자주 질문하는 내용2:현실에서 적용

학위논문통계 2021. 9. 2. 10:45

지난번 자주 질문하는 내용 글이 조회수가 상당히 높네요.

 

그럼 조금 더 자세히 써 볼게요. 옛날이 공부한 내용이라 기억이 좀 가물가물한데 개념들만 이해를 하시고 더 전문적인 영역으로 넣어가시려고 하시는 분들은 관련된 책을 참조하시기 바랍니다.

 

 

 

1. 적합도

 

앞에 글에서 가능하면 단순한 모형이 좋다는 이야기를 했습니다. 즉 적합도에서 큰 차이가 없으면 단순한 모형을 선택하는 것이 더 낫다는 이야기를 했습니다. 이걸 절약의 법칙이라고 했고요. 흔히 다른 말로 오캄의 면도날이라고 하죠.

 

적합도는 여러분이 설정한 수학적인 통계모형이 지금 가지고 있는 데이터에 얼마나 잘 맞아 떨어지는가, 얼마나 잘 설명하는가의 정도를 말합니다.

 

그럼 우리가 상식적으로 생각할 때 어떤 현상을 설명할 때 가능하면 완벽하게 설명하려고 하잖아요. 이게 과학의 목표이고요. 그럼 가능하면 적합도가 높은게 좋다고 생각할 수 있습니다. 그런데 왜 단순한 모형을 취하는 것이 좋다고 할까요?

 

 

이론적으로나 단순하게 머리 속으로 생각하면 적합도가 높은 것이 좋다고 생각하는데 현실 적용에서는 실제로 이렇게 안된다는 것입니다.

 

적합도가 좋다는 이야기는 현재 자신이 가지고 있는 데이터에서만 적용되는 이야기입니다. 다른 사람이 표본으로 뽑은 데이터나 아니면 미래의 데이터에서는 지금 데이터에서 적합도가 좋은 모형이 훨씬 안 좋을 수가 있거든요. 즉 리스크가 굉장히 큰 모형입니다.

 

그 대신 지금은 조금 단순한 모형이지만 다른 사람 데이터에서나 아니면 앞으로의 데이터에서는 안 좋기는 하지만 약간만 안 좋다는 이야기입니다. 현재도 약간 안 좋고, 미래도 약간 안 좋고, 즉 리스크가 적은 모형입니다. 즉 안정적인 모형이 된다는 이야기죠.

 

 

이런 개념을 통계학에서는 강건(robust)하다고 합니다.

 

예를 들어 정규분포 가정 하에서는 매우 좋은 추정 통계량이 됩니다. 그러나 만약 자기가 가지고 있는 데이터가 정규분포가 아니면 최악의 추정 통계량이 될 수 있습니다. 이런 경우 쓰는 용어입니다.

 

 

 

이런 이유 때문에 자율주행차와 같이 인공지능 기법을 이용할 때는 현재 데이터를 2개의 데이터로 나눠서 사용합니다. 어떤 경우는 3개로 나눌 때도 있고요.

 

즉 학습 데이터(training data)와 검증 데이터(testing data)로 나눠 학습데이터에서 모형을 추론하고 여기서 나온 결과를 검증 데이터에 적용에서 추론한 결과가 검증데이터에서도 잘 예측을 하는지 알아본다는 것이죠.

 

 

그럼 이런 생각을 할 수 있습니다. 제가 논문을 쓸 때는 이렇게 2개로 나누지 않고 데이터를 통째로 다 써서 했는데요 이런 질문을 할 수 있습니다.

 

그 이유는 흔히 쓰는 논문은 인과관계를 검증하는 인과모형이고요, 인공지능에서 쓰는 모형은 범주를 분류하고 예측하는 탐색모형이기 때문입니다.

 

 

인과관계모형은 변수 A가 변수 B에 영향을 미치는가? 다른 말로 변수 B라는 현상이 변수 A 때문에 생긴 것인가 이런 문제를 다루는 것이요.

 

인공지능에서 사용하는 탐색모형은 어떤 물체를 분류하는, 즉, 남자인가, 여자인가, 아니면 상황을 분류하는 즉, 횡단보도 앞에서 계속 진진할 것인가 아니면 멈출 것인가 행동의 의사결정을 다루는 모형이기 때문입니다.

 

 

하여간 어떤 경우든 항상 잘못 판단할 에러가 생겨납니다.

 

진짜는 A인데 B로 분류하는 오류, 진짜는 B인데 A로 분류하는 오류입니다. 이런 오류를 최소화해야 한다는 것이죠.

 

피고가 진짜는 무죄인데 유죄로 판단하는 오류, 피고가 진짜는 유죄인데 무죄로 판단하는 오류 이런 오류가 발생할 수밖에 없습니다. 확률적 세계에서는요.

 

수학의 부울의 이진 논리법은 현실의 확률 논리 세계에는 맞지 않습니다.

 

 

하여간 이 2개의 경우 흔히 사용하는 통계기법이 다릅니다. 인과관계모형은 회귀분석, 또는 로지스틱 회귀분석, 분산분석, 구조방정식 모형, 경제학에서는 VAR나 VECM, 또는 패널회귀분석 등을 사용합니다.

 

이에 반해 인공지능에서 사용하는 탐색모형은 탐색적 요인분석(흔히 사회과학 논문에서는 설문문항 신뢰도, 타당도 분석에서 사용하지만요), 군집분석, 판별분석, 의사결정트리 분석 등이 많이 사용됩니다. 로지스틱은 여기서도 사용할 수 있겠네요.

 

 

 

 

그럼 적합도는 어떻게 측정할까요.

 

회귀분석에서는 결정계수 R2입니다. 이게 독립변수가 많아지면 적합도, 즉 결정계수가 무조건 올라가니까 이걸 보정한 것이 수정 결정계수(adjusted R2)입니다.

 

구조방정식모형에서는 GFI나 RMSEA 값들이 적합도를 판단하는 값들입니다. 구조방정식에서 적합도를 올리려면

 

VIew==> Analysis Properies==>output==>threshold for modification indices

 

에서 값을 10을 넣고 모형을 돌려서 결과물을 보면 이 값이 10 넘는 부분이 있습니다. 이 부분을 양쪽 화살표를 넣어서 모형을 복잡하게 만들어 다시 구조방정식을 돌리면 적합도가 올라갑니다. 제 경험상 값 10이 제일 타당한 것 같습니다.

 

 

 

그럼 적합도를 고려해서 최선의 모형을 어떻게 찾을 것인가? 하는 문제가 남아 있습니다. 이건 모형 선택(model selection)이라는 분야를 찾아야 합니다. 그래서 이 모형 선택의 문제에서는 단순한 통계 모형 1개만 생각하는 것이 아니라 수 많은 통계 모형의 집합을 생각해야 합니다. 이 수 많은 통계 모형 집합에서 가장 적절한 하나의 통계 모형을 선택하는 문제이거든요.

 

정답은 없습니다.

 

 

==> 나중에 밤에 다시 계속해서 쓸게요. 지금 좀 바빠서요.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

'논문통계해석하기' 카테고리의 다른 글

0707자주하는 질문  (0) 2021.09.07
모형선택, 적합도, AIC, Kullbak number  (0) 2021.09.05
0826자주하는 질문1  (0) 2021.08.26