Wsyang.com

Mac, Statistics, and Common Life in Japan

Archive for the ‘R-Tips’ Category

R에서 SAS의 영구파일 sas7bdat 이용하기

leave a comment

최근 R package가 통계 분석에 많이 사용된다고는 하지만, 기업에서는 SAS나 SPSS를 더 많이 사용하는 것으로 알고 있습니다. 저도 대학이나 연구기관의 의뢰에는 R를 사용하지만, 기업의 데이터 분석에는 SAS를 이용합니다.

간혹 클라이언트로부터 받은 데이터가 SAS의 영구 파일형식인 sas7bdat일 때가 있습니다. 분석할 때 아무래도 손에 익은 R을 선호하게 되는데 SAS를 사용할 수 있는 환경에 있으면 데이터를 일반 ASCII 파일로 변환하여 사용하면 되지만 SAS를 사용할 수 없는 환경에 있을 때도 있습니다.

물론 R에서 SAS 형식의 데이터를 불러오는 함수 read.ssd()가 있긴 하지만, 이도 시스템에 SAS가 설치되어 있어야만 이용할 수 있어서 이래저래 불편했었습니다. 그런데 최근 sas7bdat라는 패키지가 공개되어 간단하게 이 형식의 데이터를 R에 불러올 수 있게 되었습니다.
Read the rest of this entry »

Written by 양 우성

July 27th, 2011 at 2:43 pm

Posted in R-Tips,SAS

Tagged with , , ,

[R] 알아두면 편리한 함수 head와 tail

leave a comment

R의 사용자 환경(UI)은 그다지 좋은 편이 못됩니다. R에서 데이터 파일(txt, csv 등)을 불러오면 데이터프레임 형식으로 작업공간에 저장됩니다. 데이터가 제대로 읽혔는지 확인하는 방법은 저장된 데이터프레임의 이름을 콘솔에 입력하면 됩니다만 데이터의 크기가 크면 한 화면에 다 보이지 않을뿐더러, 일정 수가 넘어가게 되면 아예 보여 주지도 않습니다. 또한, 계산 결과가 매우 많을 때도 같은 상황이 발생하게 됩니다.
Read the rest of this entry »

Written by 양 우성

June 20th, 2011 at 5:34 pm

Posted in R-Tips

Tagged with ,

두 이산형 변수의 연관성 척도 Cramér’s V

leave a comment

두 이산형 변수의 연관성(association)에 대해 알아볼 때 흔히 카이제곱 검정을 이용합니다. 하지만, 엄밀히 말하면 카이제곱 검정은 연관성의 유의한 정도(test for the significance)의 결과일 뿐, 연관성 크기를 나타내는 척도는 아닙니다. 즉, 두 개의 데이터 셋에 대해 각각 연관성 검정을 했을 때 검정결과인 유의확률을 가지고 어느 쪽이 연관성이 크다고는 말할 수 없다는 것이죠.

두 이산형 변수의 연관성의 크기를 나타내는 척도 중 하나가 Cramér’s V라는 것이 있습니다. Read the rest of this entry »

Written by 양 우성

June 7th, 2011 at 11:21 am

1980년대와 2000년대 프로야구 투수들의 방어율 어느 쪽이 낮을까?

leave a comment

프로야구 좋아하세요? 저도 즐겨 보는 편입니다.
일본에 와서는 아무래도 우리나라 선수들이 활약하는 팀의 경기를 관심 있게 보곤 합니다. 이승엽 선수가 요미우리 자이언츠에 소속되어 있을 때, 직장 동료들과 도쿄 돔에 갔었는데 마침 이승엽 선수가 2루타로 타점을 올리고 팀이 승리해서 으쓱했던 기억도 나네요.

우리나라의 프로야구는 아시다시피 1981년 처음 시작되었습니다. 그땐 저도 꼬맹이 초등학생이었는데 벌써 30년이 지났네요. 당시의 쟁쟁했던 선수들이 이제는 감독이 되어 팀을 지도하는 모습을 보니 감회가 새롭습니다. 그때나 지금이나 저는 두산 팬입니다. 박철순 선수의 활약이 아직도 기억에 많이 남네요.
Read the rest of this entry »

Written by 양 우성

May 23rd, 2011 at 12:23 am

R에서 사용하는 데이터 셋의 형태

leave a comment

R에서 사용하는 가장 기본적인 데이터 셋의 형태는 벡터(vector)입니다. 하나 이상의 숫자, 문자 등의 집합을 벡터(vector)라고 합니다. 벡터를 행과 열로 가지는 표 형식으로 확장한 것이 행렬(matrix)입니다. 또한, 벡터의 집합을 원소로 가지는 데이터의 형태를 리스트(list)라 하고, 리스트에 포함된 벡터의 길이가 모두 같을 때 이를 데이터프레임(data frame)으로 취급할 수 있습니다. 이번 포스트에서는 R에서 사용하는 데이터 셋의 형태에 대해서 정리해 보도록 하겠습니다.

Read the rest of this entry »

Written by 양 우성

May 9th, 2011 at 6:03 pm