논문통계해석하기 8

0707자주하는 질문

지난번에 한 이야기를 조금 더 이야기해보죠. 1. 인공지능 진보언론에서 인공지능 까기 위해 소수자 인권 문제를 들고 나오는 경우가 많습니다. 그냥 언급할 가치조차 없는 이야기입니다. 인공지능 자체가 가능하면 현실에 적합하게 판단하려는 모형입니다. 예를 들어 성소수자가 3% 정도라면 인공지능으로 판별하면 거의 3% 정도 나오게 되어 있습니다. 그 비율 자체가 인공지능 알고리즘 안에 들어가 있다는 것이죠. 문제는 앞에서도 이야기했지만 우리는 어느 정도 오류를 피해나갈 수가 없습니다. 즉 잘못된 판단을 할 가능성이 높은 회색지역이 있다는 것이죠. 잘못된 분류 예를 몇 개 가져와서 공격을 하면 안되죠. 앞에서 이야기했지만 어떤 사회나 문제, 의사결정에서 생겨나는 문제입니다. 흑인을 백인으로, 백인을 흑인으로 잘..

모형선택, 적합도, AIC, Kullbak number

지난번에 쓰던 이야기를 계속 해 보죠. 흔히 인과모형인 경우는 전체 데이터를 다 쓴다고 했죠. 그리고 인공지능 같은 탐색모형인 경우는 데이터를 쪼개 하나는 학습데이터, 하나는 검증데이터로 쓴다고 했습니다. 인과모형의 경우 검증데이타로 쪼개 해 봐자 기껏하는 것이 유의하는가 아닌가 이런 정도입니다. 그리고 이 경우 설문조사를 해서 많이 하는데 박사논문 정도되어도 500명 정도입니다. 통상 저널논문은 200-300개 되고요. 이걸 쪼개면 데이터 수가 너무 줄어 듭니다. 이에 반해 인공지능에서는 빅데이터를 사용합니다. 몇 만개에서 몇 십만개 될 수 있습니다. 또한 분류의 오류확률을 정확하게 구해 낼 수 있습니다. 예를 들어 사진을 보고 남녀 구분을 한다고 하면 해당 사진이 이게 남자 사진인지, 여자 사진인지 ..

0902자주 질문하는 내용2:현실에서 적용

지난번 자주 질문하는 내용 글이 조회수가 상당히 높네요. 그럼 조금 더 자세히 써 볼게요. 옛날이 공부한 내용이라 기억이 좀 가물가물한데 개념들만 이해를 하시고 더 전문적인 영역으로 넣어가시려고 하시는 분들은 관련된 책을 참조하시기 바랍니다. 1. 적합도 앞에 글에서 가능하면 단순한 모형이 좋다는 이야기를 했습니다. 즉 적합도에서 큰 차이가 없으면 단순한 모형을 선택하는 것이 더 낫다는 이야기를 했습니다. 이걸 절약의 법칙이라고 했고요. 흔히 다른 말로 오캄의 면도날이라고 하죠. 적합도는 여러분이 설정한 수학적인 통계모형이 지금 가지고 있는 데이터에 얼마나 잘 맞아 떨어지는가, 얼마나 잘 설명하는가의 정도를 말합니다. 그럼 우리가 상식적으로 생각할 때 어떤 현상을 설명할 때 가능하면 완벽하게 설명하려고 ..

0826자주하는 질문1

0. 질문 포스트 감사합니다. 공변량 분석 관련해서 도저히 답을 못찾겠어서 여기 저기 찾던 중 블로그를 보게 됐습니다. 혹시 질문 하나 드려도 될까요? 독립변수는 4개의 그룹 (3개 그룹 더미 코딩, 1개 그룹 기저변인), 종속변수는 연속형변수, 통제변수는 인구통계변인 (성별, 인종 등 더미 변수 2개) + 연속형변수 (총 10개). 회귀분석을 4가지로 달리 모형을 만들어서 (각각의 그룹을 기저변인으로 해서) 했을 때 그룹 2의 효과는 그룹 1,3보다 유의적으로 크다고 나오고, 4와의 차이는 p=.05레벨에서 유의하지 않다고 나옵니다. 질문 1) 4가지 모델에서 두개의 그룹 간 차이에 대한 상관계수는 부호만 다르고 숫자는 같아야 하는것 같은데 다 다릅니다. 예를 들어, 그룹 1을 기저변인으로 했을 때 그..

벤포드, 가설검증, p 값, 베이지안. 엔트로피

음 이 글을 어디에 써야 할지 모르겠는데요. 나중에 통계 부분에도 좀 더 정확하게 해서 한번 쓸게요. 한겨레에 숫자에 대한 컬럼을 쓰는 친구가 있는데 이번에는 p value라는 것에 썼는데 이게 좀 문제가 많은 기사고, 또 일반 사회과학 전공하는 사람들이 너무 잘못 알고 있는 것이 많아서..