[R] 데이터 처리의 새로운 강자, dplyr 패키지

데이터 분석에서 가장 많은 시간을 차지하는 것은 데이터를 분석에 필요한 형태로 만드는 데이터 전처리 과정입니다. 우리가 공부하면서 보게 되는 책에 있는 예제는 말 그대로 예제일 뿐이지 실제 데이터 분석 업무에서는 바로 모델링이나 시각화에 적합한 형태의 데이터를 얻기 위해서는 지루하고 복잡한 과정을 거치게 됩니다. 데이터 분석 프로젝트에 걸리는 시간의 절반 이상은 데이터의 전처리, 변환, 필터링이 차지하게 되는 것이 보통입니다.

R 언어 자체에도 데이터 전처리를 위한 많은 함수가 포함되어 있습니다. 여기에 각종 패키지의 도움을 받는다면 더욱 쉽고 빠르게 전처리 과정을 마칠 수가 있습니다. 이번 포스팅에서는 최근 dplyr이라는 패키지가 새로 발표되어 인터넷상에서 좋은 평가를 받고 있기에 패키지 안에 포함된 예제를 이용하여 기본 사용법을 정리해 보도록 하겠습니다.

Read more ›

Tagged with: ,
Posted in R-Tips, 통계 이야기

기초부터 응용까지 무료 통계학 eBook 19선 + α

인터넷은 정보의 바다입니다. 인터넷에는 통계학에 관한 자료도 일일이 셀 수 없을 정도로 많이 있습니다. 하지만 단편적인 정보가 많아 체계적인 지식의 습득에는 역시 책을 이용하는 편이 효율적이겠죠.
이번 포스팅에서는 인터넷에 무료로 공개되어있는 통계학 및 R 언어에 관한 eBook을 소개하려 합니다. 영어로 쓰인 책이 대부분입니다만, 몇몇 한글 자료도 소개합니다. 그리고 각 자료에 대한 간략한 설명은 저의 주관에 근거한 것이니 참고 정도로만 생각해 주세요. :)

eBook

Read more ›

Tagged with:
Posted in 통계 이야기

기업 환경에서의 R

무료 데이터 분석 환경 R

R은 무료 데이터 분석 소프트웨어이지만 고급 통계분석환경을 이용할 수 있습니다. 조작성에서도 GUI 환경을 지원하는 R Commander, 통합개발환경 R Studio등 무료로 이용할 수 있는 보조 소프트웨어가 다수 등장하여 점점 더 손쉽게 사용할 수 있는 환경이 조성되고 있습니다. 따라서 통계분석을 업무에 도입하는 경우에도 R은 충분한 기능을 제공하고 있다 말할 수 있습니다.
 
그러나 표준 R 환경만으로 모든 기업의 요구를 충족시킬 수 있는가에 대한 물음에는 아니오라고 답할수 밖에 없습니다. 제품 보수 지원, Q&A 대응, 한글 설명서, 교육과 같은 서비스가 필요한 경우 SAS, SPSS 등 상용제품을 활용하는 것이 인적 자원, 교육 비용, 시간 비용등을 고려할 때 바람직한 경우도 있을 것입니다.

표준 R 환경의 한계

표준 R 환경은 기본적으로 “데이터를 메모리 공간에 불러와 처리"하는 형식입니다. 이 때문에 실행 컴퓨터의 이용 가능한 메모리 용량보다 큰 데이터에 대해서는 1) 데이터를 작은 단위로 나누어 반복처리를 이용한 분할 계산을 하거나, 2) 다른 데이터를 메모리 공간에서 일시적으로 삭제하거나, 3) 메모리를 물리적으로 증설하는 등의 조처를 할 수 밖에 없습니다. 이 문제는 특히 빅 데이터 처리에 R을 활용하려 할 때 골치거리가 될 가능성이 높습니다.

Read more ›

Tagged with: , , , , , , ,
Posted in R-Tips

Box plot에 좀더 많은 정보를 담아보자

데이터 분석할 때 무엇을 가장 먼저 하세요?

저는 우선 데이터의 분포 및 도수를 확인합니다. 데이터의 형태와 종류에 따라 사용할 수 있는 분석 방법이 정해지기 때문이죠. 이상치의 확인 때문이기도 합니다.
개인적으로 데이터의 분포를 확인할 때 Box plot을 즐겨 사용하는데요.

Box plot 정확히 상자와 수염 그림(box and whisker plot)은 두 개 이상의 집단의 상대적 비교를 위해서 각 집단의 최대값(max)과 최소값(min) 그리고 중앙값(자료를 크기순으로 나열했을 때 가운데 위치하는 값: median) 및 사분위수(자료를 크기 순서에 따라 늘어놓은 자료를 4등분 했을 때 위치하는 값을 의미함) 제 1사분위수(아래에서 25% 백분위점에 위치하는 수: Q1), 제 3사분위수(아래에서 75% 백분위점에 위치하는 수: Q3)등 다섯 숫자를 요약하여 그래프로 나타내는 방법으로 John W. Tukey가 제안한 탐색적 데이터 분석 방법입니다.

Read more ›

Tagged with: , , ,
Posted in R-Tips

소득 상ㆍ하위층 삶의 만족도 격차 – 꼴찌에서 두 번째

우리나라의 소득 상위 10%와 하위 10%의 삶의 만족도에 대한 격차가 OECD Better Life Index 2013 조사 대상 36개 국가 중 끝에서 두 번째인 35위네요.

Better Life Index는 전반적인 삶의 질을 0~10점으로 평가한 일종의 웰빙지수입니다. 한국 언론에서는 행복지수라 소개하고 있더군요. Better Life Index에는 11가지 평가항목이 있는데요. 이번 포스팅에서는 평가항목 중 인생 전반적인 생활 및 환경에 관한 만족도를 평가한 삶의 만족도, 특히 소득에 따른 만족도 데이터를 이용해 우리나라의 위치와 격차의 정도를 다른 조사대상국과 비교해 보도록 하겠습니다.
Read more ›

Tagged with: , , ,
Posted in R-Tips, 생활속의 통계