국정원 의심 계정 트윗 분석
2013-07-01
data visualization
국정원
뉴스타파
트위터
요즘 인터넷이 국정원의 정치개입의혹 때문에 떠들썩 합니다. 외국에 살기에 주로 인터넷을 통해 국내 상황을 접하는 데 트위터에서 보면 인터넷상에서만 정보가 오가지 공중파 방송이나 조중동에서는 쉬쉬하고 있는 것 같군요.
그러던 차에 뉴스타파에서 국정원 확인 및 의심 트위터 계정 658개와 게시글 23만여 건을 공개했습니다. 안 그래도 요즘 SNS 데이터 분석에 흥미를 가지고 있었는데 마침 잘 되었다 싶어 이 데이터를 이용한 분석을 시도해 보았습니다.
데이터 설명
뉴스타파의 국정원 의심 트위터 계정 공개 및 데이터 설명에 자세히 나와 있듯이 이 데이터는 국정원과 연계된 658개의 트위터 계정 가운데 512개 트위터 계정이 게시한 일자와 내용을 포함하고 있습니다. 데이터는 4개의 파일로 되어있는데요. 뉴스타파가 공개하는 대부분의 트위터 계정은 이른바 ‘국정원 여직원 사건’이 터진 2012년 12월 11일 전후로 활동을 멈췄으며, 계정도 삭제되었다고 하니 계정 데이터만 가지고는 특별히 해볼 것이 없을 것 같아서 이번 분석에서는 아래 3개의 파일만 이용해 분석해 보았습니다.
- 국정원 계정이 직접 작성한 대선 및 정치 관련 트윗 3,744개
- 국정원 계정이 작성하거나 리트윗한 대선 및 정치 관련 트윗 59,383개
- 국정원 계정이 작성하거나 리트윗한 전체 트윗 237,494개
국정원 의심 계정의 활동 키워드는?
만약 국정원이 조직적으로 여론조작을 위해 트위터에 글을 남겼다면 일정 키워드를 정해 놓고 그에 관한 글을 중점적으로 남겼으리라 가정해 보았습니다.
우선 국정원 계정이 직접 작성한 대선 및 정치 관련 트윗 3,744개를 워드 클라우드로 시각화해보았을 때 다음과 같은 결과를 얻을 수 있었습니다.
뚜렷하게 ‘종북’, ‘북한’, ‘좌파’, ‘대한민국’, ‘세력’과 같은 단어가 키워드로 사용되었군요. 3,744개의 트윗 중 약 62.7%에 ‘종북’ 이란 단어가 포함되어 있고, ‘북한’ 약 60.7%, ‘좌파’, ‘대한민국’이 약 21% 정도입니다.
같은 방식으로 국정원 계정이 작성하거나 리트윗한 대선 및 정치 관련 트윗 59,383개를 분석해 보면
역시 ‘종북’이란 단어가 들어간 글이 중심이네요. 국정원 계정이 정치 관련해 작성 혹은 리트윗한 글의 약 72.4%에 ‘종북’이란 단어가 포함되어 있습니다. 그다음이 ‘북한’으로 약 50%, ‘좌파’가 약 17.4% 정도입니다.
또한, 국정원 의심 계정이 직접 작성한 글을 제외한 리트윗 글을 분석해 보아도 위 그림과 거의 같았음을 확인하였습니다(그래프 생략). 단, 리트윗의 특성상 같은 내용이 반복되기 때문에 리트윗의 수가 많을수록 그 트윗에 포함된 단어가 워드 클라우드에 큰 글씨로 나오게 됩니다만 그 단어의 노출 수가 많을 수록 파급력도 높아지리라 생각해 모든 트윗을 대상으로 조사했습니다.
다음은 국정원 계정이 작성하거나 리트윗한 전체 트윗 237,494개를 대상으로 한 키워드 탐색 결과입니다.
그러면 국정원 계정 의심 계정이 정치적인 글 이외에는 어떤 글을 많이 남겼을까요? 국정원 계정이 작성하거나 RT한 전체 트윗 237,494개에서 뉴스타파가 대선 및 정치관련 트윗으로 판단한 59,383개를 제외한 나머지 트윗을 가지고 키워드 탐색을 해보면,
정치글이 아닌 것으로 판단 했지만 트위터에 가장 많이 노출 된 단어는 ‘북한’이군요.
트윗수의 경향과 패턴
다음은 트윗을 남긴 날짜와 시간을 봐서 일정 패턴이 있나 없나 살펴 보았습니다. 공개된 데이터에는 트윗된 날짜가 포함되어 있으므로 언제 많은 트윗을 남겼는지 알 수 있겠죠. 우선 각 날짜별 트윗수를 살펴보면 역시나 대선을 앞두고 트윗 및 리트윗 수가 급격하게 늘어났음을 확인할 수 있습니다.
먼저 국정원 계정이 직접 작성한 대선 및 정치 관련 트윗 3,744개의 날짜별 트윗 수 입니다.
위 그래프에서 보는 것과 같이 가장 많은 글이 작성된 날은 2012년 12월 6일(99회)과 12월 5일(95회) 입니다. 무슨 일이 있었는가 확인해 보니 12월 6일에는 당시 문재인 대선 후보와 안철수 전 후보의 단독회담이 있었고, 12월 5일은 대통령선거 사상 첫 재외국민 투표 시작된 날이네요. 우연이길 바랍니다.
다음으로 국정원 계정이 작성하거나 리트윗한 전체 트윗 237,494개의 날짜별 트윗 수입니다.
마찬가지로 2012년 12월 6일(496회)과 12월 5일(420회)에 가장 많은 글이 작성되었음을 확인할 수 있습니다.
그런데 요일별로 트윗 수에 차이가 없는 곳과 급격하게 트윗 수가 적어지는 부분이 있는 것 같아 요일별 트윗 수를 그려 보았습니다.
금, 토요일에 트윗수가 현저하게 떨어지네요. 일요일도 평일과 비교하면 직접 작성한 트윗의 수가 적다는 것을 확인할 수 있었습니다.
우수 계정
주어진 과제(?)를 가장 열심히 수행한 계정은 무엇일까요? 국정원 계정이 작성하거나 리트윗한 대선 및 정치 관련 트윗 59,383개 데이터를 이용했을 때,
가장 많은 트윗을 올린 계정 Top 10 입니다.
가장 글을 열심히 작성한 계정 Top 10
RT 업무를 성실히 수행한 계정 Top10
맺음말
여기까지가 제가 분석한 국정원 의심 계정의 트윗 데이터의 탐색결과입니다. 이 포스팅에 있는 그래프 중 2개를 트윗에 먼저 올렸더니 저도 생각지도 못할 반응이 있었습니다. 물론 반론도 있었지요. 이번 분석결과는 데이터의 전체적인 모습을 들여다보고 특징적인 이벤트를 찾아내는 탐색적 방법의 결과일 뿐입니다. 그러므로 보는 사람에 따라 그 해석이 달라 질 수 있습니다.
여기에 사회 과학, 데이터 과학 등에서 사용하는 방법을 이용하면 더 재미있는 결과가 나올 수 있겠네요.
마직막으로 데이터를 분석하는 사람이 어떤 의도를 가지고 데이터에 접근하면 안 된다는 것이 저의 지론입니다만, 여기는 제 개인 블로그이니 공개된 계정이 진짜 국정원 계정이라는 전제하에 제 생각을 간단히 적어보면.
불순한 의도를 가지고 여론을 몰아가는 행위를 하는 것은 그들이 주 적으로 삼고 있는 북한 간첩들의 중요활동 아닌가요? 참 더럽군요. 그렇게까지 해서 정권 유지하니 좋으세요?
이번 분석에 사용한 R 코드는 여기에서 확인할 수 있습니다. 오류가 있다면 알려주세요…
이번 작업과 관련해 슬로우뉴스에 인터뷰 기사가 실렸습니다. 인터뷰 전문은 여기에서 볼 수 있습니다.