Wsyang.com

Mac, Statistics, and Common Life in Japan

Visualize This

leave a comment

책을 한 권 샀습니다. “Visualize This“라고 데이터 시각화에 대한 책입니다. 블로그 flowingdata.com을 운영하는 친구가 펴낸 책인데 예제가 많아서 마음에 듭니다. 일본 아마존에 주문했더니 열흘 만에 도착했네요.

요즘 유행인 데이터 시각화에 저도 동참해 보렵니다. ^^;

Written by 양 우성

August 29th, 2011 at 11:28 pm

R에서 SAS의 영구파일 sas7bdat 이용하기

leave a comment

최근 R package가 통계 분석에 많이 사용된다고는 하지만, 기업에서는 SAS나 SPSS를 더 많이 사용하는 것으로 알고 있습니다. 저도 대학이나 연구기관의 의뢰에는 R를 사용하지만, 기업의 데이터 분석에는 SAS를 이용합니다.

간혹 클라이언트로부터 받은 데이터가 SAS의 영구 파일형식인 sas7bdat일 때가 있습니다. 분석할 때 아무래도 손에 익은 R을 선호하게 되는데 SAS를 사용할 수 있는 환경에 있으면 데이터를 일반 ASCII 파일로 변환하여 사용하면 되지만 SAS를 사용할 수 없는 환경에 있을 때도 있습니다.

물론 R에서 SAS 형식의 데이터를 불러오는 함수 read.ssd()가 있긴 하지만, 이도 시스템에 SAS가 설치되어 있어야만 이용할 수 있어서 이래저래 불편했었습니다. 그런데 최근 sas7bdat라는 패키지가 공개되어 간단하게 이 형식의 데이터를 R에 불러올 수 있게 되었습니다.
Read the rest of this entry »

Written by 양 우성

July 27th, 2011 at 2:43 pm

Posted in R-Tips,SAS

Tagged with , , ,

[R] 알아두면 편리한 함수 head와 tail

leave a comment

R의 사용자 환경(UI)은 그다지 좋은 편이 못됩니다. R에서 데이터 파일(txt, csv 등)을 불러오면 데이터프레임 형식으로 작업공간에 저장됩니다. 데이터가 제대로 읽혔는지 확인하는 방법은 저장된 데이터프레임의 이름을 콘솔에 입력하면 됩니다만 데이터의 크기가 크면 한 화면에 다 보이지 않을뿐더러, 일정 수가 넘어가게 되면 아예 보여 주지도 않습니다. 또한, 계산 결과가 매우 많을 때도 같은 상황이 발생하게 됩니다.
Read the rest of this entry »

Written by 양 우성

June 20th, 2011 at 5:34 pm

Posted in R-Tips

Tagged with ,

유전통계학과 수리통계학의 역사

leave a comment

유전학과 통계학은 유사점이 많은 학문입니다. 실제로 19세기 후반, 20세기 초반의 유명한 통계학자인 Francis Galton, Karl Pearson, R.A Fisher 등은 유명한 유전학자이기도 합니다. 이번 포스트에서는 각각의 학문이 어떻게 시작되고, 어떠한 경로로 지금에 이르렀는지 살펴보도록 하겠습니다.

유전학의 성립과 역사

Read the rest of this entry »

Written by 양 우성

June 10th, 2011 at 2:49 pm

두 이산형 변수의 연관성 척도 Cramér’s V

leave a comment

두 이산형 변수의 연관성(association)에 대해 알아볼 때 흔히 카이제곱 검정을 이용합니다. 하지만, 엄밀히 말하면 카이제곱 검정은 연관성의 유의한 정도(test for the significance)의 결과일 뿐, 연관성 크기를 나타내는 척도는 아닙니다. 즉, 두 개의 데이터 셋에 대해 각각 연관성 검정을 했을 때 검정결과인 유의확률을 가지고 어느 쪽이 연관성이 크다고는 말할 수 없다는 것이죠.

두 이산형 변수의 연관성의 크기를 나타내는 척도 중 하나가 Cramér’s V라는 것이 있습니다. Read the rest of this entry »

Written by 양 우성

June 7th, 2011 at 11:21 am