Archive of published posts on April, 2011

Back home

[R] 눈으로 확인하는 중심극한정리

2011/04/28

통계학을 공부하신 분이라면 한 번쯤 중심극한정리(Central Limit Theorem, CLT)라는 용어를 들어보셨으리라 생각합니다. 중심극한정리는 추론통계학의 핵심이 되는 정리 중의 하나인데, 이 정리를 통계학에서 쓰는 기호와 용어를 이용해 설명하면 아래와 같습니다.

평균이 \( \mu \) 이고 분산이 \( \sigma^2 \)인 모집단으로부터 추출한 크기가 \( n \)인 확률표본의 표본평균 \( \bar{X} \)는 \( n \)이 증가할수록 모집단의 분포유형에 상관없이 근사적으로 정규분포 \( N(\mu, \sigma/n)\)을 따른다.

계속 읽기 »

댓글 없음

[R] boxplot의 새로운 형태 violin plot

2011/04/25

데이터 분석을 할 때 가장 먼저 해야 하는 일은 데이터의 형태(분포)를 확인하는 것입니다. 많은 통계 교과서들이 각종 데이터 분석 기법을 설명하는 과정에서 데이터가 어떤 분포를 따르고 있다는 가정하에서 설명합니다. 따라서 데이터가 어떠한 분포를 따르고 있는지 파악해야만 사용할 수 있는 분석 기법을 결정할 수 있습니다.

개인적으로 데이터의 분포를 확인할 때 가장 많이 쓰는 방법이 boxplot입니다. 무엇보다도 간단하게 그릴 수 있고, 대략적인 이상치(outlier)의 존재를 확인할 수 있기 때문입니다.
계속 읽기 »

댓글 없음

[R] R에서 가계도 작성하기

2011/04/19

유전통계학에서 연쇄분석(linkage analysis)을 하기 위해서는 각 가계 구성원의 가계도(pedigree chart)를 작성하는 것이 필수입니다. 가계 구성원의 수가 많지 않은 가계의 경우 손으로 그리거나, 도표를 그리는 소프트웨어(OmniGraffle, MS Visio등)를 이용하곤 합니다. 그러나 가계 구성원의 수가 많은 경우는 가계도를 그리는 것도 만만치 않은 일입니다.

전문적으로 가계도를 작성해 주는 소프트웨어도 있습니다만, 여기서는 R에서 작성하는 방법을 알아보도록 하겠습니다.
계속 읽기 »

댓글 없음