논문통계해석하기/벤포드, p 값, 베이지안, 엔트로

벤포드, 가설검증, p 값, 베이지안. 엔트로피

학위논문통계 2019. 4. 9. 04:18

 

 

음 이 글을 어디에 써야 할지 모르겠는데요. 나중에 통계 부분에도 좀 더 정확하게 해서 한번 쓸게요.

 

한겨레에 숫자에 대한 컬럼을 쓰는 친구가 있는데 이번에는 p value라는 것에 썼는데 이게 좀 문제가 많은 기사고, 또 일반 사회과학 전공하는 사람들이 너무 잘못 알고 있는 것이 많아서요. 그 이전 칼럼 기사에는 벤포드 법칙에 관해서 썼는데 여기에 관해 좀 새로운 이야기를 해보고 싶기도 하고요.

 

 

먼저 p value는 통계학에서 중요한 개념이 아닙니다. 그 칼럼을 쓴 친구는 p-value라는 것이 매우 중요한 개념인데 매우 문제가 많다고 하는데 일단 이 친구가 문제가 많다고 하는 것은 p-value가 아니고 유의수준(significant level)을 말합니다. 그리고 통계 전공하는 사람은 p-value에 대한 관심도 없고요.

 

먼저 가설은 두 개를 써야 합니다. 귀무가설과 대립가설이라는 것인데요 사회과학에서 이야기하는 가설은 대립가설만을 이야기합니다. 이게 관행처럼 사용되어 왔습니다. 통상 이렇게 사용합니다.

 

귀무가설 H0: A는 B에 영향이 없다.

대립가설 H1: A는 B에 영향이 있다. 아니면 A는 B에 정(+)의 영향력이 있다.

 

이렇게 하는데 사회과학에서는 오로지 대립가설만 쓰고 이걸 그냥 가설이라 이야기합니다. 그래서 자기가 조사한 설문조사 데이타나 관찰 데이터, 그리고 정부 데이터에서 이 대립가설이 맞는지 아니지를 검증하는 것입니다.

 

통계학에서 중요하게 생각하는 것은 검증통계량(test statistics)을 어떻게 구할 것인지, 그리고 기각역(critical region)을 어떻게 구할 것인지 이게 문제가 됩니다. 기각역까지 구하면 이땐 p 값은 저절로 구해집니다. 따라서 통계학에서는 별로 중요한 개념이 아닙니다. 그런데도 실제 사회과학 논문에서 중요하게 여겨지는 이유는 이 p 값을 계산하는 일이 귀찮은 일이거든요. 그래서 통계 프로그램에서 대신해서 구해주는 것입니다.

 

사회과학 논문 밑에 보면 이런 모양이 있습니다.

 

* p<.05, ** p<.01, *** p<.001

 

부등호 오른쪽에 있는 0.05, 0.01, 0.001이 이게 유의수준이고 데이터에서 구한 p 값이 0.05보다 작으면 표에 *를 붙이고, p 값이 0.01보다 작으면 **를 붙이고, p 값이 0.001보다 작으면 표에 ***를 붙인다는 이야기입니다. 실제 표를 보면 이런 *들이 붙어져 있습니다. 이 *들이 붙어 있으면 이에 관련된 변수는 영향력이 있다고 우리가 판단을 내립니다. 이 판단이 옳을 확률이 95%, 또는 99%, 또는 99.9% 정도된다고 생각하면 됩니다.

 

즉 이 유의수준 0.05, 0.01, 0.001은 우리가 자주 접하는 여론조사에 나오는 신뢰수준 95%, 99%, 99.9%와 거의 비슷한 개념이라 생각하면 됩니다. 사실 통계 이론상 가설검증과 신뢰구간 이론과는 동전의 양면의 관계가 있습니다. 가설 검증 하는 방법이 통계 이론상 힘드니까 신뢰구간 구하는 방법을 이용해서 이것 가설 검증에 적용하는 경우가 많습니다.

    

 

조금 현실적인 이야기로 써 볼게요.

 

어떤 사람이 한국 여성의 평균키는 163cm이다 이렇게 주장했다고 하죠. 그럼 이 주장이 정말 옳은지 실제 데이터를 구해서 판단을 해야 하는 문제가 생겼다고 하죠. 그럼 귀무가설은

 

귀무가설 H0: 한국 여성이 평균키는 163cm이다.

대립가설 H1: 한국 여성의 평균키는 163cm가 아니다. 또는 163cm보다 작다, 또는 163cm보다 크다

 

이렇게 됩니다. 일단 여기서 가설의 공간을 명확히 해야 합니다. 이 경우 여성은 성인 여성이 되겠죠. 그리고 시공간상 현재 한국에 거주하는 한국인 여성이 되겠고요. 이런 것이 생략되어 있어도 맥락 상 알 수 있는 것이죠.

 

그리고 귀무가설에서 나오는 163cm는 정확히 163cm를 이야기하는 것이 아닙니다. 이건 데이터를 보지 않아도 163cm가 아닌 것은 명확합니다. 정확하게 한국 여성의 키가 163cm가 되는 확률은 0입니다. 즉 163cm 비슷하다는 이야기죠.

 

그런 이 귀무가설 주장을 확인하기 위해서는 우리는 데이터를 뽑아야 하겠죠. 그래서 20명의 성인 한국 여성의 키를 뽑았다고 해요. 그럼

 

(X1, X2, ..., X20)=(158.2, 171.3, ..., 161.7)

 

이렇게 나올 겁니다. 그럼 이 20개의 여성키를 가지고 어떻게 귀무가설 H0: 한국 여성의 평균 키는 163cm이다 라는 주장을 판단할 까요?

 

그럼 여러분은 당연히 이렇게 이야기할 겁니다. “구한 20개의 키 자료에서 평균값을 구하면 되겠네” 아마 중학교만 다닌 학생 정도만 되어도 다 이렇게 이야기할 겁니다.

 

네. 맞습니다. 20개의 키 자료의 평균값을 구해서 하면 됩니다. 이때 구한 평균을 가설에 있는 평균과 비교해서 표본평균(sample mean)이라는 말을 사용합니다. 그리고 이 표본평균이 바로 검증통계량이 됩니다.

 

그럼 이 표본평균이 161.7cm가 나왔다고 해요. 그럼 이 나온 표본평균값 161.7cm를 보고 귀무가설 H0: 한국 여성의 평균키가 163cm라는 것을 맞다고 해야 할까요 아니면 틀리다고 해야 할까요 하는 문제가 생겨납니다.

 

즉 163cm보다 얼마나 작으면, 또는 얼마나 크면 이 귀무가설 H0을 기각을 해야 하는지 하는 문제가 생깁니다. 즉 이 귀무가설 H0을 기각하는 영역을 정해야 합니다. 이 영역을 기각역이라고 하고 이 기각역은 사람마다 다 다를 수 밖에 없습니다. 그래서 이 기각역을 구하는데 사용하는 개념이 유의수준이고 이 유의수준을 어떻게 주는 가에 따라 귀무가설 H0를 틀렸다고 이야기할 수도 있고, 아니면 맞다고 이야기할 수 있다는 것이죠.

 

즉 어떤 사람은 기각역을

 

(표본평균>170, 아니면 표본평균<155)

 

이렇게 좁게 잡을 수도 있고, 어떤 사람은 기각역을

 

(표본평균>165, 아니면 표본평균<161)

 

이렇게 잡을수도 있다는 것이죠. 이게 데이터 분석하는 사람이 임의적으로 주는 유의수준에 따라 달라진다는 것입니다. 이 유의수준의 대표적인 것이 표 밑에 있는 0.05, 0.01, 0.001입니다. p 값의 정의는

 

p 값=최대확률(대립가설이 옳다|귀무가설이 옳다)

=촤대확률(표본평균이 기각역에 속한다|귀무가설이 옳다)

 

이렇게 됩니다. 즉 실제로는 귀무가설이 옳은데 우리가 대립가설이 옳다고 판단할 최대확률, 즉 귀무가설이 옳은데 표본평균이 기각역에 속할 최대확률이 됩니다.

 

그래서 일반인은 복잡하게 생각할 필요가 없고 데이터를 돌리면 통계프로그램에서 p 값을 구해줍니다. 이 p 값이 0.05보다 작은지, 아니면 p 값이 0.01보다 작은지, 아니면 p 값이 0.001보다 작은지 보시고 여기에 맞춰 *, **. *** 붙이면 됩니다.

 

그리고 최소한 * 하나 이상 붙으면 이 경우 “영향력이 있다”, 또는 “차이가 있다” 가 있다 이렇게 해석하시면 되고 (대립)가설이 채택되었다 이렇게 논문에 쓰시면 됩니다.

 

그러나 이 관행이 통계학에서 나온 관행이 아닙니다. 이건 사회과학이 신전처럼 모시는 통계 프로그램 SPSS에서 나오는 관행입니다. 이걸 무슨 대단한 과학 법칙이냥 신처럼 모신다는 이야기죠. 정말 코메디입니다.

 

앞에서 이야기했지만 유의수준을 어떻게 주는냐에 따라 기각역이 달라지고 여기에 따라 가설을 채택할지 아니면 기각할지 달라집니다. 그리고 이 유의수준은 분석하는 사람의 마음입니다.

 

이런 것이랑 똑 같습니다. 판사가 무죄로 할 것인가 아니면 유죄로 할 것인가 판단하는 것이랑 똑같은 문제입니다.

 

귀무가설 H0: A는 무죄이다

대립가설 H1: A는 유죄이다

 

A를 유죄로 판결할 경우 이 A는 인생 완전히 망칩니다. 따라서 A가 실제로는 무죄인데도 A를 유죄로 잘못 판결할 가능성을 최대한 줄여야 합니다. 이게 무죄추정의 원칙입니다. 여러 가지 증거 상황(위의 키 예에서는 표본 평균)이 뚜렷하게 A가 유죄하는 것(즉 증거가 기각역에 속함)을 보여주지 않는 한 A를 무죄로 해야 한다는 것이죠.


그래서 무죄추정의 원칙이 적용되는 법정에서는 유의수준을 0.05로 하는 것이 아니라 0.001로 해야 한다는 것입니다. 유죄로 판단하는 것, 또는 차이가 있다, 또는 영향력이 있다는 대립가설을 채택하는 것을 최대로 작게 해야 한다는 것입니다.

 

이 p 값은 표본 수가 클수록, 모형에 들어가는 변수의 수가 적을수록 작아지는 경향이 있습니다. 따라서 엄청난 사람들을 조사하는 정부데이터의 경우, 또 상관계수분석(이건 독립변수가 하나 들어가는 회귀분석이랑 같습니다)에서는 이 p 값이 낮게 나와 대부분 영향력이 있다. 또는 차이가 있다 이렇게 나올 가능성이 많습니다.

 

그래서 엄청난 큰 프로젝트에서 어떤 변수가 영향력이 있다고 나온다고 해서 그대로 믿으면 안됩니다. 웬만하면 다 영향력이 있게 나옵니다. 예를 들어 약 200부 정도 설문조사하는 석사논문에서는 영향력이 없다고 나오는데 약 500부 정도 설문조사하는 박사논문에서는 영향력이 있다고 나오는 경우가 많습니다.

 

앞에서 한겨레에 이 p 값에 대해 쓴 칼럼 기사가 있어서 한번 써 봤는데요. 이렇게 학술적으로 전문적인 훈련이 약한 친구들은 이렇게 엉터리 글들을 많이 씁니다.

 

그래서 진중권이 책을 보고 미학 전공자들이 좀 한심하게 생각하고, TV에 나오는 대중저술자들의 이야기를 진짜 전공자들이 좀 한심하게 생각하는 경우가 많죠. 그러나 진짜 전공자들도 엉터리 얘들이 워낙 많으니까 판단하기 힘들죠. 무슨 말이지 아시죠. 제가 한국의 관변 친일 사학계를 까고 있는 것이죠. 제가 국사에 대해 아는 것이 뭐가 있겠습니까. 제가 비난하는 것은 얘들이 기본적으로 학문하는 태도에서 잘못되었다는 것이죠. 과학을 할 기본적인 소양자체가 없다는 이야기입니다.


추신: 가정 중요한 것이 검증통계학을 구하는 것인데 이게 주류 중에 주류 얘들 방법으로서는 할 수 있는게 거의 없습니다. 그래서 주류 중의 비주류의 Fisher의 방법을 많이 씁니다. 이것도 조그만 복잡해지면 사용할 수 없습니다. 그래서 어쩔 수 없이 대표본의 가정해서, 즉 데이터 수가 엄청 많다고 가정을 해서 이럴 경우 정규분포를 가는데 이걸 이용해서 합니다. 즉 엄밀하게 하는 것이 아니라 대충 가설 검증하는 것입니다.

 

 

 

 

벤포드 법칙은 제가 옛날에 베이지안 공부할 때 잠깐 이야기를 들은 적이 있습니다. Box & Tiaoo 책에 있었나 확실히 기억이 안 납니다.

 

또 제가 옛날에 보던 책에 drive cab 문제라는 것을 본 적이 있는데 그때도 좀 흥미롭다고만 생각했는데 깊게는 생각을 안해 봤습니다. 이 2개가 같은 문제라고 하네요. 이건 나중에 더 읽어보고 좀 생각을 해서 정리해서 다시 쓰겠습니다.

 

drive cab 문제는 이런 것입니다. 만약 여러분에게 서울에 있는 택시의 수를 물어 보면 어떻게 답할건가요. 여기서 여러분에게는 서울 택시 수에 대한 아무런 정보가 주어지지 않습니다. 당연히 모른다고 해야죠.

 

그러나 서울 택시에다 전부 1, 2, 3,... 이렇게 차례로 번호를 붙였다고 생각하죠. 우연히 지나가다 택시를 보니까 택시 번호가 500이라고 하죠. 그럼 서울의 전체 택시 수는 어떻게 될까요.

 

2*500개 일까요?

 

500이란 수는 전체 택시의 숫자 값의 평균이라 생각하고 여기에 2를 곱하면 전체 택시 수가 나올 것이다라는 것은 상당히 합리적인 판단이라 생각할 수 있습니다.

 

그러니 이 경우 택시 번호가 정규분포 모양을 해야 어느 정도 합리적이라는 것이죠. 즉 500을 중심으로 양 옆으로 퍼진 모양일 때 어느 정도 합리적인 판단이라 생각할 수 있습니다. 그러나 이 경우 각 숫자가 나올 확률은 전체 택시 수가 N일 때 1/N이라는 균등분포를 갖습니다.

 

 

벤포드 문제는 이런 것입니다. 여러분이 전화번호부에 있는 숫자를 전부 모으세요. 그래서 0부터 9까지 나오는 비율을 조사합니다. 그럼 우리 생각에 숫자가 모두 대등하기 때문에 0이 나올 빈도도 1/10, 9가 나올 빈도도 1/10 이렇게 모두 대등하다고 생각할 겁니다.

 

그러나 벤포드라는 사람이 조사해보니까 숫자가 적은 경우가 더 많이 나오고 숫자가 클수록 그 빈도가 점점 줄어든다는 것을 발견합니다. 그리고 대강의 법칙(law of thumb)을 만들어 냅니다. 그러나 이 법칙은 이 벤포드 이전에 뉴컴이라는 사람이 이미 발견했다고 합니다. 또 이 뉴컴이라는 사람의 논문에는 이게 학술적으로 발표만 안 되었지 이미 많은 사람들이 경험적으로 알고 있었다고 합니다. 즉 뉴컴이라는 사람이 최초로 학술적으로 발표는 했지만 그 이전에 많은 사람들이 알고 있었던 사실이고, 또 뉴컴의 연구는 학술적으로 많이 알려지지 않았지만 벤포드의 연구는 많이 알려져서 벤포드의 법칙으로 불린다고 합니다.

 

그럼 왜 도대체 작은 숫자는 많이 발견되고 큰 숫자는 적게 발견되는 것일까요. 제 느낌 상에는 숫자가 랜덤하지 않기 때문인가 생각합니다. 숫자는 수학 용어로 ordered 되어 있기 때문입니다. 즉 0<1<2<3... 이렇게 순서가 있기 때문에 랜덤하다고 보기 힘듭니다. 좀 수학 전문 용어로 섞기(shuffling)에 대해 불변(invariance) 하지 못하다는 것이죠.

 

 

하여간 정확한 이유는 모르겠고요. 제가 이야기하고 싶은 것은 다른 것입니다. 흔히 통계학에 이야기하는 주류쪽(빈도학자, 즉 frequentist)와 비주류인 베이지안(baysian)쪽 이야기를 하려고 합니다. 이 두 학파의 기본 철학이 어떻게 다른지 이야기를 하려고 한다는 것이죠.

 

위의 상황을 우리가 잘 알고 있는 주머니 속의 구슬 이야기로 다시 해보죠.

 

주머니 안에 숫자가 0부터 9까지 적힌 공이 10개가 들어 있다고 하죠. 그럼 여기서 공을 하나 뽑았을 때 3이 나올 확률은 어떻게 될까요.

 

정말 쉬운 문제이고 이런 문제가 시험에서 매우 자주 나오죠. 당연히

 

Pr(3이 나온다)=1/10

 

이죠. 그런데 이 답이 옳은 것인까요. 왜 옳은 것이죠.

 

여기에 대한 답은 여러분이 아마 고등학교에서 배운 확률의 정의에서 나옵니다. 공을 뺏다 넣었다 한다고 가정하죠. with repalcement라고 합니다.

 

공을 10번 뽑을 경우, 또 100번 뽑을 경우, 또 1000번 뽑을 경우, 그리고 백만번 뽑을 경우 이렇게 뽑는 숫자를 계속 늘여가면 이게 나중에는 1/10으로 접근한다는 것이죠. 이게 확률의 정의이고 배웠고 이게 빈도학자(frequentist)의 주장이고 주류 통계학의 주장입니다.

 

처음 10개 뽑을 때는 표본 변동에 의해 확률이 0.3 이렇게 나올 수도 있지만 이게 뽑는 숫자를 늘리면 0.3, 0.19, 0, 0,21, 0.11, 0.987, 0.10001 이렇게 1/10=0.1로 접근을 한다는 이야기입니다. 이것 통계학에서는 대수의 법칙(law of large numers)라고 합니다.

 

이게 당연할 것 같은데 왜 베이지안은 비난을 할까요.

 

위의 상황을 매우 가상적인 상황, 즉 완벽한 상황을 말합니다. 실제 상황에서는 공이 이렇게 대등하게 뽑힐 그럴 상황을 만들 수가 없다는 것입니다. 예를 들어 동전을 던진다고 하죠. 그럼 동전이 완벽하게 무게 중심이 잡힌 그런 동전은 없다는 이야기입니다. 그리고 동전을 던지는 사람이 던지는 각도, 힘 등이 할 때마다 다 다른다는 것입니다.

 

더 심각한 문제는 이렇게 백만번까지 실험할 수 있는 상황은 현실에서 존재하지 않습니다. 현실 연구에서는 10번 뽑거나 많아야 100번 정도 뽑는 경우에 그친다는 것이죠.

 

그래서 만약 현실에서 10번 뽑으니까 3이 적힌 공이 4번 나왔다고 하죠. 그럼 우리는 3이 뽑힐 확률이 4/10이라고 말하는 것이 맞는 것일까요.

 

주류학계에서는 오직 데이터만을 보고 해야 한다고 주장하기 때문에 3이 뽑힐 확률이 4/10이라고 이야기합니다. 그러나 베이지안은 다릅니다. 사전의 자신이 가지고 있는 정보를 중요시합니다.

 

그래서 베이지안은

 

3이 나올 확률=데이타에서 나온 확률*사전에 자신이 가지고 있는 정보

 

이렇게 표시를 해야 한다는 주장합니다. 이걸 일반적으로 이야기 하면

 

사후확률= 데이터에서 나온 확률(우도 함수)*사전확률

 

이렇게들 말합니다. 그러나 앞에서 이야기했지만 이 데이터 수가 커질수록 우리는 데이터에서 나오는 정보를 더 신뢰합니다. 따라서 베이지안에서도 데이터 수가 많을수록 사전확률의 역할이 줄어들고 데이터에서 나온 확률이 점점 더 큰 역할을 하게 됩니다. 이게 사후 확률 구하는 공식에서 직접 확인이 됩니다.

 

 

그럼 주머니에서 구슬을 뽑을 때 각각 대등하게 확률을 줘서 1/10이라고 이야기하는 것이 우리의 관념에 정확하게 일치하는데 이걸 베이지안에서는 어떻게 설명을 할까요.

 

베이지안에도 여러 학파가 있는데 이 비주류에서도 비주류인 MaxEnt 학파가 있습니다. 엔트로피 학파라고 합니다. 불행히도 어쩌다 보니 제가 이쪽 학파에 있게 되었습니다. 제가 원한 것도 아니고 지도교수가 그쪽에 서 있다 보니 그렇게 된 것이죠.

 

이 엔트로피 학파가 주장하는 내용은 다음과 같습니다. 즉 엔트로피를 최대로 하면 이 주머니의 공의 뽑힐 확률은 모두 1/10, 균등본포라는 것입니다.

 

즉 균등분포일 경우 이 엔트로피가 가장 최대값을 갖습니다. 그래서 이 엔트로피를 맥시마이즈하자 그래서 MaxEnt 원리라고 합니다.

 

이 엔트로피는 분포의 변동을 재는 하나의 측정치로 볼 수 있습니다. 흔히 어떤 변수의 퍼짐을 변동(variation)이라 하는데 이 변동을 재는 가장 유명한 값이 바로 분산(variance)입니다. 그러나 이 분산이라는 측정치는 스케일에 따라 값이 달라지는 단점이 있습니다.

 

즉 키를 m로 재는 경우와 mm로 재는 경우 분산값이 다 달라집니다. 즉 똑같은 현상을 재는 척도에 따라 분산이 달라집니다. 그래서 절대적으로 분산이 크다, 적다 이런 말을 사용할 수가 없습니다. 같은 척도에서 상대적으로 이야기를 해야 한다는 단점이 있습니다. 그러나 엔트로피는 이 척도에 불변한다는 장점을 가지고 있습니다.

 

추가: 회귀분석에서 회귀계수가 0.000001로 완전히 0에 가까운데도 0이 아니다, 즉 대립가설이 옳다. 영향력이 있다고 판단하는 경우도 있고, 회귀계수가 237.442 등 0보다 엄청나게 크게 나왔는데도 0이라고 판단하는 경우도 있는데 이게 다 똑같은 현상인데도 불구하고 독립변수와 종속변수의 척도에 따라 달라지기 때문입니다. 그래서 단순히 회귀계수를 봐서 영향력이 있다 없다 이렇게 이야기하는 것이 아니고 앞에 이야기한 검증통계량 t 값을 보고 판단을 해야 하는 것입니다.

 

 

그럼 다음과 같은 지적을 할 수 있습니다. 위의 공을 뽑는 경우는 엔트로피를 최대화해서 구할 수가 있는데 이게 우연히 나온 결과가 아니냐. 이런 특수한 한 케이스를 가지고 일반화할 수 있는냐 이런 비판이 가능합니다.

 

그때 엄청난 논문이 하나 튀어 나옵니다. Janyes라는 물리학자가 기존의 통계역학에서 나오는 분포를 이 엔트로피를 맥시멈하자는 원리 하나로 다 구해내 버립니다. 기존의 수 많은 물리학자들이 끙끙되면서 구한 통계 역학의 분포들을 이 분이 엔트로피 맥시멈 원칙 하나로 간단하게 다 풀어 버린 것이죠.

 

사실 이 논문이 기존의 물리학계의 관습, 또는 개념을 완전히 파괴한 것이기 때문에 기존의 물리학계 저널에서 받아 주지를 않았습니다. 그 대신 정보학계 저널에 내라고 충고를 들었죠. 그래서 아마 이쪽에 논문을 내었을 겁니다.

 

통계역학에서는 우리가 아는 외부 정보, 즉 메크로 정보를 통해 내부 정보, 즉 마이크로 상태를 추론하는 것입니다. 간단히 이야기해 냄비를 만져서 뜨거우면 안의 입자 상태가 활발하다고 판단하고 냄비가 차가우면 안의 입자 상태가 안정적이라 판단합니다.

 

지금 우리의 알고 있는 얘를 한번 들어볼까요. 버닝션 사건입니다. 버닝션 사건의 실체는 아무도 모릅니다. 단지 우리가 아는 정보는 정준영이 나오는 카톡, 그것도 언론에서 흘러 나온 카톡 내용 중 일부 내용만 알고 있습니다. 그래서 이 외부에 나오는 정보를 가지고 우리는 실제 거대한 내부 정보에 대해 각각 이럴 것이다 저럴 것이다 추론을 하는 것입니다.

 

물론 이 외부 정보는 다 다릅니다. 우리 일반인은 정말 일부만 알고 있는 것이고, 언론에 있는 사람은 일반인 보다 더 많이 알고 그리고 수사하는 경찰은 더 많은 정보를 가지고 있다는 것이죠.

 

그래서 엔트로피를 맥시멈 하자는 원리는 자기가 가지고 있는 정보하에서 엔트로피를 최대화, 즉 여러 가지 상황을 대한 분포의 퍼짐을 가장 크게 하자는 것입니다. 다른 말로 무지(ignorance)를 최대화한다고 합니다.

 

 

여러 가지 상황은 어떻게 설정할 수 있을까요.

 

예를 들어 최근 외무부에서 구겨진 태극기를 걸어 말이 많았죠. 이 사람이 왜 구겨진 태극기를 걸었는지 그 이유는 당사자외에는 아무도 모릅니다. 그럼 이 실체, 진짜 구겨진 태극기를 걸은 이유에 대해 우리는 다양한 상황을 설정해 볼 수 있습니다.

 

1. 타성에 의해, 즉 불성실해서

 

2. 실수에 의해서

 

3. 문재인 정권 물먹이려고

 

4. 기존에도 이런 일이 자주 있었는데 그 당시에는 언론에 노출이 되지 않았다가 문정권을 비난하는 쓰레기 언론이 이걸 꼭 집어 기사화했기 때문에

 

과연 이 네 가지 상황에서 어떤 것이 진짜 진실, 즉 실체일까요. 사고를 친 외무부 공무원이 말하는 것은 중요하지 않습니다. 진짜 이 사람의 진심은 무엇일까요.

 

우리는 단순히 드러난 정보, 구겨진 태극기만 보고 추론을 하는 것이고 또 일부 사람들은 기존의 한국 공무원의 습성 정보, 또 더 나아가 외무부 공무원에 대한 정보, 또 그 공무원과 친한 친구나 동료 외무부 동료들의 가지고 있는 정보에 따라 다 답, 즉 판단이 달라질 수 있습니다.

 

현실에서는 우리의 인식은 어쩔 수 없이 한계가 있을 수 밖에 없습니다. 이걸 최대한 인식의 편협함을 막고 국민들이 갈등을 최소화 하려면 관련된 정보를 투명하게 할 수 밖에 없습니다.