2011/06/7
두 이산형 변수의 연관성(association)에 대해 알아볼 때 흔히 카이제곱 검정을 이용합니다. 하지만, 엄밀히 말하면 카이제곱 검정은 연관성의 유의한 정도(test for the significance)의 결과일 뿐, 연관성 크기를 나타내는 척도는 아닙니다. 즉, 두 개의 데이터 셋에 대해 각각 연관성 검정을 했을 때 검정결과인 유의확률을 가지고 어느 쪽이 연관성이 크다고는 말할 수 없다는 것이죠.
두 이산형 변수의 연관성의 크기를 나타내는 척도 중 하나가 Cramér’s V라는 것이 있습니다.
계속 읽기 »
2011/05/23
프로야구 좋아하세요? 저도 즐겨 보는 편입니다.
일본에 와서는 아무래도 우리나라 선수들이 활약하는 팀의 경기를 관심 있게 보곤 합니다. 이승엽 선수가 요미우리 자이언츠에 소속되어 있을 때, 직장 동료들과 도쿄 돔에 갔었는데 마침 이승엽 선수가 2루타로 타점을 올리고 팀이 승리해서 으쓱했던 기억도 나네요.
우리나라의 프로야구는 아시다시피 1981년 처음 시작되었습니다. 그땐 저도 꼬맹이 초등학생이었는데 벌써 30년이 지났네요. 당시의 쟁쟁했던 선수들이 이제는 감독이 되어 팀을 지도하는 모습을 보니 감회가 새롭습니다. 그때나 지금이나 저는 두산 팬입니다. 박철순 선수의 활약이 아직도 기억에 많이 남네요.
계속 읽기 »
2011/05/9
R에서 사용하는 가장 기본적인 데이터 셋의 형태는 벡터(vector)입니다. 하나 이상의 숫자, 문자 등의 집합을 벡터(vector)라고 합니다. 벡터를 행과 열로 가지는 표 형식으로 확장한 것이 행렬(matrix)입니다. 또한, 벡터의 집합을 원소로 가지는 데이터의 형태를 리스트(list)라 하고, 리스트에 포함된 벡터의 길이가 모두 같을 때 이를 데이터프레임(data frame)으로 취급할 수 있습니다. 이번 포스트에서는 R에서 사용하는 데이터 셋의 형태에 대해서 정리해 보도록 하겠습니다.
계속 읽기 »