2022/07 18

0731잡소리

1. 오세훈 준동 오세훈이가 서서히 준동을 하는 것 같은데요. 용산개발을 자기 대선 시그니처로 이용할 것 같습니다. 지난 서울시장때 워낙 욕을 많이 먹어서 그 동안 잠잠해 있다가 대선용 시그니처로 일단 용산개발로 잡은 것 같습니다. 이명박이는 청계천과 버스 전용 노선이 시그니처였죠. 그러나 용산 하나만으로는 안 될 겁니다. 만5세 입학도 오세훈 대선 띄우기인가요 2. 여교사와 남자 고등학생 사건 이 남학생이 나중에 대통령이 되면 드디어 쥴리를 이길 수 있는 영부인이 등장하는 건가요? 육체적이든 정신적이든 둘이 좋아서 죽겠다는데 뭐 어떻게 합니까. 당사자끼리 알아서 해야죠. 그러나 성적 문제는 좀 심각하죠. 미국 대학에서 이런 짓이 일어나면 그 교수는 학계에서 완전 매장입니다. 타블러가 여교수가 자기를 잘..

0730잡소리

0. 지상 최대의 난제 6세 입학, 왜 하는지 아는 사람이 아무도 없습니다. 1. 윤석렬 지지율 음... 이번 20%대 지지율이 나온 것은 유의적인 하락으로 보입니다. 표본 추출 오차에 따른 하락이 아니라 본질적인 지지율 하락으로 보입니다. 그래서 여론회사에 따라 다시 30%대로 올라가는 경우가 있으면 이젠 이게 표본추출 오차에 따른 상승으로 보입니다. 일단 경찰 문제가 컸고요. 이게 이렇게 커질 줄 저도 예상을 못했는데요. 이게 제일 크게 작용한 것 같습니다. 또 하나는 코로나가 계속 확산되고 있는데 얘들 속수무책이죠. 또 이준석 사건이 있는데 이건 지금까지 윤석렬 개판 정치의 하나의 예에 불과한 것이지 이준석을 살리기 위해서 윤석렬 지지율이 떨어진 것은 아니죠. 앞에서 이야기했지만 이준석은 정치 생명..

0725잡소리

오자 탈자는 나중에 수정하겠습니다. 1. 음모론 김연아가 결혼한다고 하는데 이것도 음모론입니까. 적당히 하세요. 지금 윤정권의 문제는 총체적인 문제입니다. 특정 사건의 문제가 아니라는 것이죠. 다른 사건으로 덮을 수 없습니다. 그리고 문화계의 표절 문제는 장기적으로 바라보면 지금 정치판보다 더 중요한 사안입니다. 앞에서도 이야기했지만 윤정권의 문제는 총체적인 문제라 뭐로 덮고 나발이고 이런 것 없습니다. 지지율 회복할 능력도 없습니다. 그러나 한국의 문화산업은 앞으로 대한민국을 먹여살려줄 매우 중요한 산업입니다. 지난번 대선에서도 대선 후보들이 모두 이상한 정보통신 기술만 떠들고 문화산업에 대해서는 아무런 식견을 드러낸 인간들이 없습니다. 2. 지지율이 중요한 이유 만약 지금 윤석렬 지지율이 50%가 넘..

다범주 조절변수 조절효과 보는 법

지난번에는 조절변수가 연속형인 경우 어떻게 분석하고 해석하는지 설명했습니다. 물론 연속형 변수도 일반 표준화한 뒤 0보다 큰 경우는 ‘고 조절효과 집단’, 0보다 작은 경우는 ‘조 조절효과 집단’ 등으로 이진 더미변수로 만든 뒤 이진더미 변수인 경우 조절효과 분석을 할 수 있습니다. 오늘은 조절변수가 이진더비 변수가 아닌 다범주를 가진 다범주 조절변수의 경우를 설명하겠습니다. 대표적인 예로 종교를 들 수 있습니다. 무교=1, 불교=2, 기독교=3, 또는 무교=1, 불교=2, 기독교=3, 천주교=4 이런 경우도 있겠죠. 대표적으로 무교=1, 불교=2, 기독교=3인 경우 예를 들겠습니다. 먼저 1) 독립변수를 표준화하고요. 2) 종교를 2개의 이진더미 변수로 만듭니다. 범주가 4개인 경우는 3개의 이진더미 ..

0723-1잡소리

나중에 시간이 나면 2부를 쓰죠. 오자 탈자는 나중에... 1. 우영우 우영우 드라마가 사랑스럽게 만든 것은 매우 좋다고 생각합니다. 그러나 발달장애인 문제가 더 이상 사회적 논의로 진전이 되지 않고 있다고 봅니다. 지적장애인도 그렇지만 자폐성 장애인도 지적 능력이 매우 떨어지는 경우가 많습니다. 또 부모가 살아 있을 때는 특수학교에 보낼 수는 있습니다. 그럴러면 부모가 특수학교 지역으로 직장을 구해야 하겠죠. 더구나 부모가 더 이상 생존하지 않을 경우 이 발달 장애인을 어떻게 돌봐야 하는지 이런 문제는 전혀 나오고 있지 않습니다. 지금 민주당이 윤석렬 사적 채용 가지고 다들 신나서 떠들고 있는데요. 이런 문제도 좀 신경을 써 줬으면 합니다. 이런 공감 능력도 없는 인간들이 왜 정치하겠다고 나왔는지 모르..

이산형과 연속형 조절변수 처리

먼저 조절효과를 분석할 때 독립변수와 조절변수는 표준화를 시키는 것이 좋습니다. 조절변수가 이진더미변수인 경우 0과 1로 코딩하고요. 예를 들어 성별을 조절변수로 선택하여 조절효과를 볼 때 통상 성별은 남자=1, 여자=2로 코딩되어 있습니다. 이런 경우 남자=0, 여자=1, 또는 여자=0, 남자=1로 코딩하는 것이 좋습니다. 통상 조절효과를 볼 때 표준화를 하라고 되어 있는데 표준화를 하든 안하든 통계 검증은 달라지지는 않습니다. 단지 회귀계수 값이 상식적으로 받아 드리기 힘든 큰 값이나 작은 값이 나오는 경우가 생깁니다. 연속형 변수를 표준화를 한다는 것은 평균이 0, 표준편차가 1인 정규분포로 만든다는 이야기입니다. 그래서 원 자료에서 평균 ==> 표준화에서 0 원 자료에서 평균-1*시그마 ==> 표..

variance component

지난번에 통계학 이론을 이해하려면 평균보다 변동을 이해하는 것이 더 중요하다고 이야기했습니다. 지난번 글은 https://blog.daum.net/dataminer9/773 여기서 한국 성인의 키에 영향을 미치는 변인으로 성인 키의 차이=성별에서 오는 차이+연령대에서 오는 차이+부모 키에서 오는 차이+(성별, 연령, 부모 키 요인으로 설명되지 않는 변동) 으로 볼 수 있다고 했는데 여기서 우리가 자녀가 2명인 경우에만 키를 조사한다고 하고, 부모는 부모의 키를 재지 않고 부모1, 부모2, 부모3, 이렇게 조사한다고 하죠. 그럼 데이터는 다음과 같은 형태로 될 것입니다. id 성별 연령대 부모 키 1 남자 30대 부모1 178 2 남자 30대 부모1 174 3 여자 20대 부모2 163 4 남자 20대 부..

0721잡소리

1. 동네 양아치 청와대 습격 사건 주연: 윤석렬, 김건휘, 권성동, 장제원 국민들 눈에는 그냥 이렇게 보이는 겁니다. 조폭도 아닙니다. 그냥 동네 양아치이지. 조폭이라면 위계라도 있죠. 2. 윤석렬 지지가 떨어져서 안타까운 일 김건희가 계속 외국에 나가 설쳐야 하는데요. 그래서 거기 타블로이드에서 국민콜걸 기사가 나와야 하는데요. 3. 죽은 자식 불알 만지기 1) 이준석 이준석 애는 이미 끝났습니다. 정치 그만둬도 방송에도 못나옵니다. 성상납 받은 범죄인을 어떻게 국회의원이나 지자체장으로 뽑거나, 또는 방송인으로 기용합니까. 윤석렬에게 아부하다가 안되니까 다시 외곽으로 돌면서 반윤석렬 세를 규합하는 모양인데 이미 죽은 자식 불알 만지기입니다. 당대표 여론조사에서 1위 했다고 하는데 별 의미 없고요. 오..

Gibbs sampler1

Gibbs sampler가 처음 나온 논문은 geman & geman의 이미지 복원(restoration) 논문입니다. 이 논문 첨부했고요. 이미지 복원은 왜곡된, 훼손된 이미지에서 원래 이미지를 찾아가는 과학적 방법을 말합니다. 포토샵에서 이미지에 효과를 주는 기술적이고 예술적인 방법과 다른 것입니다. 물론 포토샵의 효과에서 여러 가지 수학적 방법을 사용하고 있지만요. 일반적인 Metropolis 알고리즘을 이해하려면 “Simulated Annealing and Boltzman Machines", Aarts & Korst 이 책이 허원이 교수가 연구한 조합 문제를 컴퓨터 계산 방식으로 풀려고 한 책입니다. 허원이 교수가 연구한 문제가 colouring 문제이네요. 컬러링 문제에서 경우가 수가 다항식으로..

통계 해석 분산의 이해

통계학에서 가장 중요한 개념이 평균과 분산입니다. 일반적인 수학에서는 이진 논리 세계(옳거나 틀리다)를 다루는 것이지만 통계에서는 확률적인 세계를 다루는 것입니다. 즉 어떤 현상은 하나의 값을 가지는 것이 아니라 분포를 가진다는 것이죠. 그런데 이 분포를 설명하는데 가장 중요한 값이 중심값이고 또 하나는 변동입니다. 중심값에서 가장 중요한 것이 가장 많이 쓰이는 평균이 있고, 분포가 대칭이 아닌 경우, 즉 소득, 아파트 가격 등 경제 변수 경우 중앙값(median)을 많이 쓰고, 범주형 자료 같은 경우는 최빈값을 쓰기도 합니다. 변동(variation)을 측정하는 값으로 가장 많이 사용하는 값이 분산(variance)입니다. 엔트로피도 있고, 또 다른 값도 있는데 지금은 분산(또는 표준편차)로 굳어져 있..