공지 및 잡담(정치사회경제)/잡담(정치사회경제)

chatGPT:교양을 위해

학위논문통계 2023. 4. 29. 12:40

 

1. 외국 관광객 선호 조사

 

인터넷에서 외국 관광객의 선호 상품 조사에 문제점을 제기하는 기사가 있었는데요.

 

중국은 화장품, 미국은 의류, 일본은 식료품 등을 선호한다고 합니다.

 

그런데 기사는 이런 분석이 과연 타당한가하는 문제를 제기합니다.

 

 

총 조사인원을 보면 별 문제가 없는 것처럼 보이지만 각 나라별로 세분해서 조사하면 중요 나라별 조사 인원이 40-50명밖에 안된다는 것이죠.

 

40-50명 조사한 것 갖고 제대로 된 분석이라고 할 수 있을까요.

 

현재 대통령이나 정당지지도도 40-50명 조사해서 발표한다고 해보죠. 아마 난리가 날 겁니다. 40-50명 조사한 것을 어떻게 믿는가 하는 점이죠.

 

 

대한상의가 하는 조사기관에서는 표본 수가 30이 넘으면 표본의 대표성을 보장할 수 있기 때문에 별 문제가 없다고 하는데요.

 

이런 이론은 없습니다. 표본의 대표성이 아니고 중심극한정리를 이야기하는 것 같습니다.

 

 

표본평균(표본에서 구한 평균)은 표본 수가 많아지면 정규분포를 한다는 이론이 있습니다. 이게 중심극한정리(CLT:Central Limit Theory)이라고 해서 이 이론에 의거해 신뢰구간이나 가설검증을 할 수 있습니다. 표본의 대표성 이야기가 아니고요.

 

 

표본비율도 일종의 표본평균이기 때문에 중심극한정리를 적용할 수 있어 표본 수가 적절하게 많으면 신뢰구간이나 가설검증을 할 수가 있습니다.

 

 

원래 이 기사가 제기하는 문제는 이 중심극한정리가 아니고 차원의 저주(curses of dimensionality)라는 문제입니다.

 

예를 들어 중국관광객 50명 중에서 남자와 여자가 선호하는 상품을 조사한다면 대강 중국남자 25명 정도, 중국여자 25명 정도가 되죠. 25명 조사한 것을 믿을 수 있을까요.

 

여기서 더 세부적으로 연령을 추가하면 중국남자20, 중국남자30,..., 중국여자20, 중국여자30,... 이렇게 상세하게 분석하는 것이 가능할까요.

 

아마 중국남자20대는 2-3명 정도 될 겁니다. 그럼 2-3명 조사한 것을 가지고 중국남자20대는 전자제품을 가장 선호한다는 결과는 가능 믿을 수가 있을까요.

 

 

여론조사에서 전체 분석하고, 그 다음에 성별, 연령별, 지역별로 각각 독립적으로 분석하는 것에 그칩니다. 경상도남자20대의 윤석렬 지지도가 60%이다 이런 분석을 할 수 있을까요. 못합니다. 1000명이나 2000명 조사해도 경상도남자20대는 잘해야 10명 정도 밖에 안될겁니다.

 

10명 조사한 결과를 과연 믿을 수 있을까요.

 

 

 

표본의 대표성은 표본추출 방법에 대한 이야기입니다. 중국관광객 50명을 조사하는데 같은 비행기를 이용한 관광객을 조사한다면 이 사람들이 중국관광객을 대표한다고 할 수 있을까요.

 

대표적인 표본 추출 방식은 임의추출, 층화추출, 군집추출 방식이 있습니다.

 

현재 여론조사에서 사용하는 방법은 층화추출이죠. 정치적 성향이 매우 다른 연령과 지역별로 설문조사 인원을 할당해서 추출하는 것이죠.

 

군집추출은 아파트 단지 같은 곳에서 많이 사용합니다. 아파트 단지의 경우 대부분 사회경제적 조건이 비슷합니다. 그럼 아파트 단지 내에 동이 50개 있으면 여기서 일부 동만 임의로 뽑아서 조사를 한다는 것이죠.

 

전체 단지 내에서 랜덤하게 조사하는 것보다 일부 동 몇 개만 심층 조사하는 것이 비용이나 시간상 훨씬 효율적이라는 것이죠.

 

 

 

 

2. chatGPT

 

또 별 이상한 것이 나와서 시끄럽죠. 제가 보기엔 별 의미가 없는 것 같고요.

 

자율주행차 비슷하게 될겁니다. 우리가 생각하는 자율주행차 시대가 오려면 자율주행차를 위한 신도시를 세워야 할 겁니다. 물론 시골 같은 곳에서는 사용할 수 있겠지만.

 

또 신도시를 세운다고 해도 기계는 언젠가는 고장날 수 있습니다. 차도 그렇고, 자율주행차를 위한 도시 시스템도 그렇고요. 또 계속적으로 학습을 해야 합니다. 새로운 외부환경에 맞춰 소프트웨어 파라메타를 계속 바꿔야 한다는 것이죠. 시골동네에서만 돌아다니는 자율주행차가 서울이나 부산에 진입할 때 제대로 작동할 수 있을까요.

 

 

그러나 이런 연구가 전혀 무의미한 것은 아닙니다. 이 과정에서 개발된 기술이 부분적으로 사용할 수 있으니까요. 후진할 때 이상물체를 발견하면 위험 신호를 보낸다든지 아니면 주차할 빈공간을 자동적으로 찾아 준다든지.

 

 

chatGPT는 여러 문제가 존재합니다. 예를 들어 한국 신문기사를 데이터로 해서 조국 사건을 한번 물어보세요. 쓰레기 같은 답을 할 겁니다.

 

정치적 목적으로 검찰이 흘린 기사를 한국 쓰레기 언론이 그대로 받아 적었잖아요. 그런데 진실로 밝혀진 것이 있나요.

 

판사놈도 기껏 유죄 내린다고 한 것이 얘들 표창장 위조나 봉사활동 위조 같은 것만 유죄로 했죠.

 

조국 부인이 워드 같은 것밖에 못쓰는 컴맹인데 어떻게 표창장을 위조할 수 있습니까. 조국 딸의 봉사활동이 문제이면 대한민국 대학생 전부 다 범죄자죠. 이것 아니까 대학에서 이런 봉사활동이 입학에 영향을 못 주는 것이죠.

 

그렇게 시끄러운 주식 투자도 전부 무죄로 나왔잖아요.

 

임창정도 주식 사기범이다라는 논조의 기사가 있는데요.

 

기레기들 이러면 안됩니다. “아직까지는요.

 

이 사건은 두가지 관점에서 볼 수 있습니다.

 

1. 성인이라면 주식이 위험투자 자산이라는 것은 다 압니다. 그런데 고 수익을 보장한다는 말에 이 말을 믿고 몇 십억을 투자한다. 말이 안되죠. 그러니까 사기꾼과 짜고 했을 가능성이 많다. 이렇게 생각할 수도 있습니다.

 

2. 임창정이가 잘 먹고 잘 사는데 왜 이런 위험한 짓을 합니까. 들통나면 자기 재산 다 날려 먹고 감방에 갈 건데요.

 

그러니까 임창정이도 사기꾼 일당이라고 합리적인 의심을 하려면 임창정이가 현재 돈에 엄청나게 시달리고 있다는 정황을 보여 줘야 합니다.

 

 

현재로선 사기꾼 일당이 자기들은 상대적으로 저평가된 회사에 투자한다고 속이고 자기네 실제 투자 실적이라고 속이고 임창정에게 보여줬을 가능성이 높습니다.

 

 

하여간 조국 사태에 관련해서 이쪽에서 유명한 격언이 있죠.

 

“Garbage in, Garbage out"

 

이라고 하죠. 쓰레기 자료가 투입되면 쓰레기 결과만 보여 주는 것이죠.

 

 

코딩도 자동적으로 알아서 해준다고 하는데 이것도 초보적이고 매우 루틴한 작업밖에 못합니다.

 

인터넷에 있는 질문 사이트나 교과서에 실려 있는 예만 질문하면 답변을 해 주는 것이죠. 답이 없는 교과서 뒤에 있는 조금 응용된 연습문제만 물어 봐도 답을 못해 줍니다.

 

수학문제는 아예 못하죠. 수학기호는 아직 인터넷에서 사용할 수 없으니까요. 더구나 기하문제는 그림까지 있어서 더욱 안되죠.

 

흔히 이야기하는 수학 계산 문제는 이미 소프트웨어가 있습니다. Maple이나 Mathematica 같은 상용용 소프트웨어가 있습니다. 일반적인 계산이나 미적분 풀어 줍니다.

 

너무 오버하지 말고 아마 구글 등 검색 기능이 조금 개선될 여지가 있어 보입니다.

 

 

이런쪽 분야를 textminig 이라고 합니다.

 

아마 이런 그림 많이 봤을 겁니다.

 

word cloud 라고 하는 것인데 단어가 클수록 빈도가 높은 단어, 또는 중요한 단어라는 의미이고 단어간에 간격이 좁을수록 두 단어의 연관성이 높다는 의미입니다.

 

 

그럼 다음 단계로 서로간의 간격이 좁은 단어끼리 배열을 할 수가 있을 겁니다. 그래서 비슷한 의미의 단어까리 뭉쳐서 이걸 토픽이라 하고 토픽의 의미를 부여할 수 있습니다.

 

다음은 그 예입니다. 부산시에 들어온 민원을 토픽 분석한 것입니다.

 

각 토픽에 해당하는 단어를 보고 토픽에 의미를 부여합니다.

 

그리고 이 토픽들이 시간이 갈수록 그 중요도가 어떻게 변하는지 알아 볼 수가 있습니다. 어떤 토픽은 시간이 갈수록 그 중요도가 높아지는 hot 토픽일 수 있고, 시간이 갈수록 중요도가 떨어지는 cold 토픽이 있을 수 있습니다.

 

이 토픽 분석은 기본적으로 주성분 분석(principal component analysis) 이라는 통계 방법론의 개념을 사용하고 있습니다. 이 주성분 분석은 spss에서는 제공을 하지 않습니다. 이건 sasR 같은 통계 프로그램을 사용해야 합니다.

 

그러나 개념은 요인분석과 비슷합니다. 사회과학 논문 쓸 때 설문도구 신뢰도와 타당도 분석에서 사용하죠.

 

 

이 토픽 분석 방법론은 LSI==> pLSI==> LDA로 발전해 왔고, 최근에는 거의 다 LDA를 사용합니다. 가장 초기 방법론인 LSA가 주성분 분석을 사용한 것입니다.

 

 

 

이 토픽 분석 외에도 최근에 많이 사용하는 기법은 감성분석(sentiment analysis)입니다. 호불호 분석이죠.

 

선거 예측 분석시 이 기법은 상당히 유용할 것이라 봅니다. 선거 외에도 영화 평가 또는 신제품 평가 분석에도 사용될 수 있을 겁니다.

 

 

이게 현재 가장 자주 사용하는 textming 방법론입니다.

 

그럼 이게 chatGPT와 뭐가 다른가 하는 것입니다.

 

저도 이론을 읽어 보지 못해 명확하게 이야기를 할 수는 없지만 한가지는 분명합니다.

 

 

기존의 textinging은 단어 순서가 중요하지 않습니다.

 

 

예를 들어 윤석렬, 김건희, 일본, 미국, 부른다, 나라, 팔아먹다, 영업사원 이런 것이 중요한 단어라고 할 때 문서 속에서 단어의 순서는 중요하지 않습니다.

 

윤석렬은 일본과 미국에게 나라를 팔아먹다

 

김건희는 부르면 나간다

 

이게 상식적인 단어의 배열이라면 기존의 textming은 이런 정보를 전혀 알 수가 없습니다. 연구자가 해석을 해야 하는 것입니다.

 

그러나 chatGPT는 답을 하려면 단어의 순서가 매우 중요합니다.

 

질문할 때의 단어 순서도 중요하고 답을 할 때도 우리가 일상생활에서 하듯이 문장이 자연스러워야 합니다.

 

 

즉 기존의 textming은 전문 용어로 단어 순서가 exchangeable 하다고 이야기를 합니다. 그러나 chatGPT에서는 자연스러운 답변이 되려고 하면 단어 순서가 중요합니다.

 

이런 순서가 중요한 인공지능은 우리가 이미 알고 있죠. 알파고죠.

 

앞에 돌이 놓아진 것에 따라 그 다음 수가 달라지는 것이죠.

 

 

 

그럼 대답이 자연스러운 것을 어떻게 알 수 있을까요.

 

옛날에는 이 분야에서는 문법을 많이 연구를 했습니다. 그러나 요새는 이렇게 안 하죠.

 

수 많은 사람들이 쓰고 이야기한 것을 보고 학습을 시켜 가장 적절한 답을 제시하는 것입니다.

 

그럼 이걸 어떻게 학습을 시켰을까요.

 

어떤 기사를 보니까 아프리카 사람을 싸게 고용해서 문장이 자연스러운지 아닌지 응답을 하게 해서 학습을 시켜다고 합니다.

 

이렇게 정답을 만들어서 학습을 하는 것을 지도 학습(supervised learning)이라 합니다.

 

예를 들어 사진을 보고 남자, 여자 구별한다든지, 아니면 인종을 구별한든지 할 때 이미 사람들을 시켜 남자, 여자 정보나 백인종, 황인종, 흑인종 이렇게 정답을 만들어 데이터에 포함시키는 것을 말합니다.

 

 

이런 방식으로 하지 않고, 어떤 특성변수를 선정하여 이 변수들의 값을 보고 남자, 여자 구별을 하는 것을 비지도 학습(unsupervised learning)이라 합니다. 예를 들면 머리길이나 상하 좌우 비율 등 변수의 값을 보고 군집분석 등을 하여 남녀를 구별한다는 것이죠.

 

학습이라 말을 너무 거창하게 생각할 필요가 없습니다.

 

데이터 1000개를 가지고 인공지능 분석을 했습니다. 그런데 새 데이터 하나가 더 첨가가 되었습니다. 그럼 1001개 데이터가 되죠. 이 새 1001개 데이터를 가지고 분석을 다시 해서 결론을 업데이트 하면 이게 학습입니다.

 

그러나 데이터가 만개, 십만개, 백만개 있으면 여기에 데이터 하나 더 첨가한다고 해서 결과가 거의 변하지 않습니다. 그러나 시간이 어느 정도 지나면 결과가 상당히 변할 가능성이 있습니다.

 

 

'공지 및 잡담(정치사회경제) > 잡담(정치사회경제)' 카테고리의 다른 글

총선  (1) 2024.03.24
0429축구이야기  (0) 2023.04.29
축구 마지막 글  (1) 2022.12.17
한국과 일본 월드컵 축구  (1) 2022.12.11
대 한 민 국 짜짠자짜자  (0) 2022.12.03