Wsyang.com

Mac, Statistics, and Common Life in Japan

Archive for the ‘R-Tips’ tag

R에서 SAS의 영구파일 sas7bdat 이용하기

leave a comment

최근 R package가 통계 분석에 많이 사용된다고는 하지만, 기업에서는 SAS나 SPSS를 더 많이 사용하는 것으로 알고 있습니다. 저도 대학이나 연구기관의 의뢰에는 R를 사용하지만, 기업의 데이터 분석에는 SAS를 이용합니다.

간혹 클라이언트로부터 받은 데이터가 SAS의 영구 파일형식인 sas7bdat일 때가 있습니다. 분석할 때 아무래도 손에 익은 R을 선호하게 되는데 SAS를 사용할 수 있는 환경에 있으면 데이터를 일반 ASCII 파일로 변환하여 사용하면 되지만 SAS를 사용할 수 없는 환경에 있을 때도 있습니다.

물론 R에서 SAS 형식의 데이터를 불러오는 함수 read.ssd()가 있긴 하지만, 이도 시스템에 SAS가 설치되어 있어야만 이용할 수 있어서 이래저래 불편했었습니다. 그런데 최근 sas7bdat라는 패키지가 공개되어 간단하게 이 형식의 데이터를 R에 불러올 수 있게 되었습니다.
Read the rest of this entry »

Written by 양 우성

July 27th, 2011 at 2:43 pm

Posted in R-Tips,SAS

Tagged with , , ,

[R] 알아두면 편리한 함수 head와 tail

leave a comment

R의 사용자 환경(UI)은 그다지 좋은 편이 못됩니다. R에서 데이터 파일(txt, csv 등)을 불러오면 데이터프레임 형식으로 작업공간에 저장됩니다. 데이터가 제대로 읽혔는지 확인하는 방법은 저장된 데이터프레임의 이름을 콘솔에 입력하면 됩니다만 데이터의 크기가 크면 한 화면에 다 보이지 않을뿐더러, 일정 수가 넘어가게 되면 아예 보여 주지도 않습니다. 또한, 계산 결과가 매우 많을 때도 같은 상황이 발생하게 됩니다.
Read the rest of this entry »

Written by 양 우성

June 20th, 2011 at 5:34 pm

Posted in R-Tips

Tagged with ,

두 이산형 변수의 연관성 척도 Cramér’s V

leave a comment

두 이산형 변수의 연관성(association)에 대해 알아볼 때 흔히 카이제곱 검정을 이용합니다. 하지만, 엄밀히 말하면 카이제곱 검정은 연관성의 유의한 정도(test for the significance)의 결과일 뿐, 연관성 크기를 나타내는 척도는 아닙니다. 즉, 두 개의 데이터 셋에 대해 각각 연관성 검정을 했을 때 검정결과인 유의확률을 가지고 어느 쪽이 연관성이 크다고는 말할 수 없다는 것이죠.

두 이산형 변수의 연관성의 크기를 나타내는 척도 중 하나가 Cramér’s V라는 것이 있습니다. Read the rest of this entry »

Written by 양 우성

June 7th, 2011 at 11:21 am

R에서 사용하는 데이터 셋의 형태

leave a comment

R에서 사용하는 가장 기본적인 데이터 셋의 형태는 벡터(vector)입니다. 하나 이상의 숫자, 문자 등의 집합을 벡터(vector)라고 합니다. 벡터를 행과 열로 가지는 표 형식으로 확장한 것이 행렬(matrix)입니다. 또한, 벡터의 집합을 원소로 가지는 데이터의 형태를 리스트(list)라 하고, 리스트에 포함된 벡터의 길이가 모두 같을 때 이를 데이터프레임(data frame)으로 취급할 수 있습니다. 이번 포스트에서는 R에서 사용하는 데이터 셋의 형태에 대해서 정리해 보도록 하겠습니다.

Read the rest of this entry »

Written by 양 우성

May 9th, 2011 at 6:03 pm

[R] 눈으로 확인하는 중심극한정리

leave a comment

통계학을 공부하신 분이라면 한 번쯤 중심극한정리(Central Limit Theorem, CLT)라는 용어를 들어보셨으리라 생각합니다. 중심극한정리는 추론통계학의 핵심이 되는 정리 중의 하나인데, 이 정리를 통계학에서 쓰는 기호와 용어를 이용해 설명하면 아래와 같습니다.

평균이 \( \mu \) 이고 분산이 \( \sigma^2 \)인 모집단으로부터 추출한 크기가 \( n \)인 확률표본의 표본평균 \( \bar{X} \)는 \( n \)이 증가할수록 모집단의 분포유형에 상관없이 근사적으로 정규분포 \( N(\mu, \sigma/n)\)을 따른다.

Read the rest of this entry »

Written by 양 우성

April 28th, 2011 at 11:42 am