두 이산형 변수의 연관성 척도 Cramér’s V

2011/06/7

두 이산형 변수의 연관성(association)에 대해 알아볼 때 흔히 카이제곱 검정을 이용합니다. 하지만, 엄밀히 말하면 카이제곱 검정은 연관성의 유의한 정도(test for the significance)의 결과일 뿐, 연관성 크기를 나타내는 척도는 아닙니다. 즉, 두 개의 데이터 셋에 대해 각각 연관성 검정을 했을 때 검정결과인 유의확률을 가지고 어느 쪽이 연관성이 크다고는 말할 수 없다는 것이죠.

두 이산형 변수의 연관성의 크기를 나타내는 척도 중 하나가 Cramér’s V라는 것이 있습니다.
계속 읽기 »

댓글 없음

R에서 사용하는 데이터 셋의 형태

2011/05/9

R에서 사용하는 가장 기본적인 데이터 셋의 형태는 벡터(vector)입니다. 하나 이상의 숫자, 문자 등의 집합을 벡터(vector)라고 합니다. 벡터를 행과 열로 가지는 표 형식으로 확장한 것이 행렬(matrix)입니다. 또한, 벡터의 집합을 원소로 가지는 데이터의 형태를 리스트(list)라 하고, 리스트에 포함된 벡터의 길이가 모두 같을 때 이를 데이터프레임(data frame)으로 취급할 수 있습니다. 이번 포스트에서는 R에서 사용하는 데이터 셋의 형태에 대해서 정리해 보도록 하겠습니다.

계속 읽기 »

댓글 없음

[R] 눈으로 확인하는 중심극한정리

2011/04/28

통계학을 공부하신 분이라면 한 번쯤 중심극한정리(Central Limit Theorem, CLT)라는 용어를 들어보셨으리라 생각합니다. 중심극한정리는 추론통계학의 핵심이 되는 정리 중의 하나인데, 이 정리를 통계학에서 쓰는 기호와 용어를 이용해 설명하면 아래와 같습니다.

평균이 \( \mu \) 이고 분산이 \( \sigma^2 \)인 모집단으로부터 추출한 크기가 \( n \)인 확률표본의 표본평균 \( \bar{X} \)는 \( n \)이 증가할수록 모집단의 분포유형에 상관없이 근사적으로 정규분포 \( N(\mu, \sigma/n)\)을 따른다.

계속 읽기 »

댓글 없음