기타통계이야기 19

하루에 R하나 정도는:simulation으로 중심극한정리 증명

오늘부터 “하루에 R하나 정도는” 프로젝트에 들어가고자 합니다. 솔직히 시간이 남으면 하겠습니다. 처음 프로젝트는 중심극한정리를 simulation으로 증명하는 것입니다. 아래 그래프는 최종 결과물입니다. 키 평균이 175이고 표준편차가 10인 성인 남성 집단에서 표본수들 점점 늘릴 경우 표본의 평균이 어떻게 변하는지 보여줬습니다. 표본 수가 늘어날수록 175로 수렴하고 있다는 것을 알 수 있죠.      simulation이라는 말은 많이 들어봤지만 실제로 해 본 적은 없지요. 처음 프로젝트는 simulation 하는 작업을 여러분이 직접 해보는 것입니다.  simulation은 수학을 이용해서 푸는 것이 아니라 컴퓨터에서 가짜 숫자를 뽑아내서 결과물을 보여 주는 작업을 말합니다.   중심극한 정리(C..

R프로그램: 필독

1. R은 interpreter입니다.  아직 interpreter를 잘 모르는 분들이 있을 것 같은데요. 옛날부터 아니 지금까지 프로그램을 한다고 하면 프로그램 소스코드를 짠 다음 컴파일(compile)라는 것을 해야 합니다. 그래서 컴퓨터 안에서 돌아갈 수 있는 기계어 비슷한 것으로 바뀝니다. C, C++, 포트란, 맥의 Objective C 전부 다 compile 언어입니다. 다만 Java만 좀 다릅니다. 혼종이죠. R은 interpreter이고 compile 할 필요가 전혀 없습니다. 프로그램이 필요한 중요한 모듈은 이미 거의 다 만들어져 있고, 작업하는 사람은 이미 만들어진 모듈의 이름을 알아서 불러오기만 하면 됩니다.  최근에 인기가 많은 파이썬도 아마 interpreter 가능성이 높습니다...

R 프로그래밍3

이왕 나온 김에 제 작업을 위해 미리 짜논 몇 개 함수를 소개하겠습니다. 모두 급하게 짠다고 해서 그리 잘 짠 프로그램은 아닙니다.   1. ave  구조방정식의 확인적 요인분석에서 AVE 값과 CR 값을 요구하는 경우가 있습니다. 이 값은 AMOS에서 구해 주지 않습니다. 시중에서 구조방정식 책을 사서 거기 공식에 맞춰 계산을 해야 합니다. AMOS 최근 버전에서는 구해 주는지는 잘 모르겠습니다. 하여간   ave nrnc mat  for (j in 1:nc){  a b cr mat[j,1]  f g ave mat[j,2] } mat;} 여기서 data는 확인적 요인분석 결과에서 나온 회귀계수와 표준오차를 말합니다. 이 함수가 최종적으로 return 하는 값은 mat이라는 matrix 형태의 값, 즉 ..

R 프로그래밍2

1. 요새 R이 크게 유행한다고 해서 글을 하나 올렸는데 아무도 읽은 사람이 없는 것 같습니다. 저도 미국에서 대학원 다닐 때 R의 이전 버전인 S를 매우 좋아했는데 이게 일반적인 통계 프로그램인 SAS, SPSS. BMDP과 완전히 다른 성격의 프로그램입니다. 아마 자료수가 엄청나게 많은 데이터를 자유로이 변형시킬때는 도움이 많이 될 겁니다.   2. sort, order, rank 지난 글 마지막에서 sort와 order를 소개했는데 썼다가 지웠습니다. 이거 다시 정리해서 글을 써야 할 것 같습니다. 비슷한 명령어로 rank가 있고요, 더구나 굉장히 중요한 응용이 있습니다.  만약 몇 만이 되는 정부 데이터가 있다고 하죠. 여기에 소득수준 변수가 있고요. 아니면 학교의 학생 수학 성적이 있다고 생각해..

R 프로그래밍1

R 과 R studio가 설치되어 있다고 가정하고 글을 쓰겠습니다.  R 모습은 이렇죠. 여기에 GUI(윈도우) 환경을 덮어 놓은게 R studio이고요.  R의 유래는 AT&T에서 개발한 S language입니다. 옛날부터 연구소나 대학원 이상에서는 Unix를 써 왔죠. 그래서 이공계나 통계학과에서는 공짜로 이 S을 사용해왔습니다. 그러다가 AT&T 가 상업용으로 팔아 버리고 인수한 회사는 망하고 이런 우연 곡절을 겪게 됩니다.  그러다가 사람들이 모여서 공짜 프로그램인 R을 개발하게 되고요. S도 S-plus라는 이름으로 상업용으로 여전히 사용되고 있습니다.  S-plus 모습을 한번 볼까요.   S와 R을 공부하기 위한 고전적인 유명한 책이 있습니다.  S Programming Language  입..

행렬의 개념, 고유값, 고유벡터, 회전행렬

1. ER 지난번 equivalence relation에 관해서 썼는데요 이거 사실은 다 아는 이야기입니다. 한국사회의 가장 큰 문제의 하나인 혈연, 자연, 학연이 다 ER입니다. 이 ER은 세가지 조건을 만족해야 합니다. 먼저 자기는 자기와 “어떤”관계여야 하고, 자기와 A와 “어떤 관계”이면 A와 자기와 “어..

partition, function, equivalence relation, sufficient, 행렬

우리가 생각하는 어떤 집합 S가 있을 때 이 집합이 자연스럽게 분할(partition)되는 경우가 있습니다. 그 대표적인 것이 그 집합 S에 정의되는 함수, 또는 equivalence relation(이후 ER이라고 하죠)이 있을 경우입니다. 이 경우 집한 S가 함수 T에 의해 분할된다. 또는 ER에 의해 분할된다고 합니다. ..

주류통계학과 베이지안, 자꾸 산으로 가는구나....

1. 앞서 이야기한 바대로 주류통계학에서 모수에 대한 확률의 개념을 거부하기 때문에 가능성(우도)함수 설명하는데 온갖 어려움이 생깁니다. 그래서 주절주절 이상한 이야기들을 많이 하고요. 아마 이걸 공부하신분도 가능성함수를 이해하려고 머리 좀 써 쓸 겁니다. 저도 학부 때 당연..