논문통계해석하기

0707자주하는 질문

학위논문통계 2021. 9. 7. 10:22

지난번에 한 이야기를 조금 더 이야기해보죠.

 

 

1. 인공지능

 

진보언론에서 인공지능 까기 위해 소수자 인권 문제를 들고 나오는 경우가 많습니다. 그냥 언급할 가치조차 없는 이야기입니다.

 

인공지능 자체가 가능하면 현실에 적합하게 판단하려는 모형입니다.

 

예를 들어 성소수자가 3% 정도라면 인공지능으로 판별하면 거의 3% 정도 나오게 되어 있습니다. 그 비율 자체가 인공지능 알고리즘 안에 들어가 있다는 것이죠.

 

문제는 앞에서도 이야기했지만 우리는 어느 정도 오류를 피해나갈 수가 없습니다. 즉 잘못된 판단을 할 가능성이 높은 회색지역이 있다는 것이죠.

 

잘못된 분류 예를 몇 개 가져와서 공격을 하면 안되죠. 앞에서 이야기했지만 어떤 사회나 문제, 의사결정에서 생겨나는 문제입니다.

 

 

흑인을 백인으로, 백인을 흑인으로 잘못판단 할 수 있다는 것입니다. 그러나 인공지능 결과 전체적으로 보면 백인 비율과 흑인비율은 정확하게 나오도록 결과가 도출된다는 것입니다.

 

 

최근 포털에서 인공지능을 이용한 편파성 문제가 심각하게 등장하고 있는데요. 그런데 개선해도 이 편파성 문제가 해결되지는 않을 겁니다. 조중동이나 조중동 같은 진보언론이나 전부 다 반민주당 정서이잖아요.

 

여기서 인공지능 알고리즘을 편견없이 정확하게 적용해도 포털은 반민주당 기사 밖에 안 뜬다는 것이죠.

 

오히려 언론의 기본 가치관을 제대로 가진 사람의 자의적인 사전 편집 기능이 더 강화가 되어야 한다는 것이죠. 아무런 근거 없는 주장은 아예 포탈에 노출을 시키면 안된다는 것이죠.

 

 

현상은 정확하게 인식을 해야 하고 여기서 나온 결과로 어떻게 생각하는지는 대한 가치의 문제는 그 다음 문제입니다. 현상 인식조차 제대로 안되어 있는 상태에서 가치를 끌고 오면 안됩니다.

 

예를 들어 최근의 김희철 유기견 입양 발언 같은 것입니다. 김희철 발언 의도는 유기견을 입양할 때 심사숙고하려는 이야기죠. 입양해서 고생 엄청나게 하고 잘못되면 다시 유기할 수 있다는 것이죠.

 

문제는 김희철의 주장이 현상을 정확하게 파악하고 한 이야기인가입니다. 아마 자기 개인 경험이나 주변 몇 사람에게 들은 이야기일겁니다. 아니면 방송에서 유기견 입양해서 고생한 사람들 이야기에 근거한 것일겁니다. 그래서 좀 더 조심해서 발언을 해야 한다는 것이죠.

 

 

하여간 김희철은 현상에 대해 이야기를 했는데 유기견 입양 단체는 뜬금없이 가치부터 들고 있어나 김희철을 공격하고 있다는 것이죠. 유기견에 대한 편견을 조장하지 말라고요.

 

이게 편견인지 아니면 사실에 대한 정확한 인식인지 그 근거에 대해서는 전혀 이야기를 하지 못하고 있다는 것이죠.

 

유기견 동물단체가 김희철에 대한 반발을 하려면 최소한 권위있는 과학저널 결과를 인용하든가, 아니면 최소한 경험이 많은 개 조련사의 의견을 인용하든가 이렇게 해야 한다는 것이죠. 김희철이가 영향력이 있는 연예인이라도 일 개인에 불과하고 자기네들은 전문적인 단체이잖아요.

 

 

2. 위험 확률

 

판단에는 여러 가지 확률을 구할 수 있습니다. A와 B 두 가지 경우가 있다고 하죠.

 

그럼 맞는 확률은 2가지 이고 틀린 확률도 2가지입니다.

 

맞는 확률: Pr(A|A), Pr(B|B)

틀린 확률: Pr(A|B), Pr(B|A)

 

입니다. 전에 코로나 진단기 정확성 나올 때 이상한 용어들을 들어 봤을 겁니다. 이게 이 맞는 확률에 대한 학술 용어입니다. 용어 이름은 지금 잘 기억이 안 나네요.

 

그러나 중요한 확률은 틀린 확률입니다. 그럼 어떤 확률이 더 중요한 틀린 확률일가요.

 

예를 들어

 

Pr(코로나 아님 판단| 사실은 코로나 환자),

 

Pr(코로나 환자 판단 | 사실 코로나 환자가 아님)

 

어떤 확률이 더 중요할가요. 줄인다면 어떤 확률을 줄여야 할까요. 여기서 이 두 틀린 확률은 상충관계입니다. 어떤 확률을 줄이면 다른 쪽 확률을 커집니다.

 

Pr(사실 코로나 아님|사실은 코로나 환자) 이 확률이 더 중요하지요. 실제로는 코로나 환자인데 코로나 아닌 것으로 판정을 받아서 그냥 단순한 감기몸살인줄 알고 지내다가 심각한 상황으로 갈 수 있다는 것이죠.

 

흔히 우리가 일상에서 많이 접하는 법원 판결의 경우입니다. 2가지 잘못된 판결을 할 수 있습니다.

 

Pr(피고인은 무죄 | 피고인은 유죄)

 

Pr(피고인은 유죄 | 피고인은 무죄)

 

이 경우 어떤 확률이 더 중요할까요. 이걸 무죄추정의 원칙이라 말 할 수 있는지는 모르겠지만 Pr(피고인은 유죄 | 피고인은 무죄) 이 확률이 더 중요합니다.

 

무죄인 사람을 유죄로 판정하면 이 사람의 인생은 완전히 박살이 나 버리거든요.

 

이걸 통계학의 가설 검증의 형태로 표시하면

 

귀무가설 H0: 피고는 무죄이다.

 

대립가설 H1: 피고는 유죄이다.

 

이렇게 하고 통계학에서 허용된 잘못된 확률 Pr(피고는 유죄라고 판결 | 실제는 무죄이다) 확률을 유의수준이라 하고 알파로 표시합니다. 실제로 잘못된 판단을 할 확률을 p 값이라고 하고요. 여러 가지 증거를 가지고 판단해서 잘못된 판결의  p 값이 허용된 유의수준 알파보다 작다고 판단되면 그때는 판사가 유죄라고 판결을 한다는 것이죠.

 

흔히 하는 유의수준을 0.05로 잡았다면 유죄 판결을 했을 경우 이 판사가 범할 수 있는 잘못된 판결 확률은 커봐야 0.05, 즉 5% 미만이라는 것입니다.

 

‘내로남불’ 이라는 말을 함부로 해서는 안됩니다. 상황에 따라서 다 다르게 판단을 해야 한다는 것이죠. ‘내로남불’ 이라는 선동이 일반인에게 잘 먹히는 이유는 이 논리가 대칭(symmetry)에 기초를 하고 있어서 그런 것이거든요. 일자무식인 사람도 이 대칭 구조는 너무 익숙한 것이거든요.

 

이런 주장을 마구잡이로 던지는 얘들은 그 사회에 바이러스 같은 존재일 가능성이 많아 주의해서 살펴봐야 합니다.

 

‘내로남불’ 주장이 맞는 경우도 있고, 또 아닌 경우도 매우 많습니다.

 

 

외할머니 사건도 좀 더 추적을 해야 하는 사건입니다.

 

DNA 검사의 정확도가 어떤 종류의 정확도인지도 모르겠고, 이게 정말 과학적인 근거가 있는 정확도인지 모르겠습니다. 또한 대부분 친자 관계에 대한 정확도이지 외할머니와 외손녀에 대한 정확도는 아닐 겁니다.

 

생각하면 좀 이상하잖아요. 외할머니와 외손녀의 DNA가 정확하게 일치되어서 외할머니 딸이 맞다고 이야기를 하는데 그럼 외할머니와 어머니은 엄마 딸 관계니까 DNA 비슷할 것이고, 또 엄마와 외손녀도 엄마 딸 관계니까 DNA 비슷할 것이고, 그럼 외할머니와 외손녀도 DNA 비슷하다는 것은 당연한 이야기 아닌가요.

 

Pr(외할머니와 외손녀는 엄마 딸 관계다| 외할머니와 외손녀는 진짜 할머니 손녀 관계이다)

 

이렇게 잘못된 판단을 할 확률이 정말 0인가요?

 

저는 이 사건의 진실에 대해서 전혀 모르죠. 그러나 수사에서 너무 부실한 것이 많다는 것이죠. 외할머니가 불법 낙태한 이후 바꿔치기를 할 때까지가 완전히 블랙박스라는 것이죠.

 

낙태한 의사도 등장하지 않아요. 뭐 이건 불법 시술이라 그럴 수 있다고 하죠. 그럼 출산 후 바꿔치기 할 때 까지 자기 딸을 어디서 키웠는가 하는 점이죠. 다른 사람이 얘기를 봐 줬다면 이 사람은 등장은 해야죠.

 

또 집에서 키웠다면 외할아버지도 공모자가 되는 것이고, 최소한 주변에서 애기를 본 사람의 증언도 나와야죠.

 

 

 

 

3. 손실과 위험

 

앞에서 이야기 한 것처럼 우리가 판단할 때 잘못된 판단을 할 경우 피해 정도와 그 확률 두 가지를 다 고려해야 합니다. 통계학에서는 피해 정도를 손실(loss)라고 하고 확률까지 다 고려해서 계산할 때는 위험(risk)라고 합니다. 아마 맞을 겁니다. 공부한지 오래되어서..

 

그런데 우리가 리스크를 고려할 때 빼 먹은 것이 있습니다. 위험의 적용범위입니다.

 

예를 들어 원전의 경우를 생각해보죠.

 

원전이 터질 확률은 매우 낮습니다. 그러나 일단 터지면 개인인 여러분에게 돌아갈 피해는 엄청납니다. 여기에 위험의 적용범위를 더 따져야 한다는 것이죠. 원전이 터지면 한국 전체가 위험에 빠집니다. 경제는 폭망하고, 국민들 전부가 고통을 받고 그 고통이 오랜 기간 지속됩니다.

 

또 다른 예로 미국 소고기 수입입니다. 미국 소고기가 문제가 생길 확률은 매우 낮다고 봅니다. 저 역시 미국 소고기를 먹는다고 제가 죽는다는 생각은 안합니다. 그러나 만약 사건이 터지면 굉장히 위험합니다. 더구나 이 위험 범위가 전 국민들에게 적용이 된다는 것이죠. 그래서 이런 정책을 펼 때는 정부가 매우 심각하게 생각을 해야 한다는 것이죠.

 

식품안전에 대해 갈수록 심각하게 생각하는 이유가 사건이 터질 때 위험범위가 전 국민들이 될 수가 있기 때문입니다.

 

그러나 음주운전은 그렇지 않습니다. 음전운전한다고 해도 사고날 확률은 매우 낮습니다. 그러나 사건이 터지면 그 피해는 각 개인에게 엄청 나게 크죠. 그러나 사고의 위험 범위는 각 개인에 해당하기 때문에 매우 협소합니다.

 

원전이나 식품안전, 또는 최근의 기후변화 이런 문제를 우리가 더 심각하게 생각해야 되는게 그 위험의 범위가 너무 크기 때문입니다.