Facebook이 생각하는 데이터 과학자와 데이터 과학 연구자

2013-06-24
Data Scientist Facebook Quantitative Researcher 데이터 과학자

Data Scientist: The Sexiest Job of the 21st Century

위 링크는 데이터 과학이라는 단어가 세상에 널리 알려지기 시작한 시점이 된 Harvard Business Review의 유명한 기사입니다. 이미 읽어 보신 분도 많겠지요. 제가 여기서 일일이 언급하지 않아도 “데이터 과학자의 정의”에 대해서는 지금까지 많은 사람들과 미디어에서 다루어 왔으므로 기존 자료를 찾아 읽는 편이 빠른 이해에 도움이 될 수 있을 것 같습니다.

그럼 데이터 과학자가 되기 위해서는 어떤 능력을 갖추고 있어야 할까요? 제가 지금까지 보아온 기사 및 자료를 보고 정리해보면 적어도 다음 3가지 능력이 아닐까 생각합니다.

  • Data Mining
  • Analytics & Reporting
  • Consulting

첫 번째는 말할 필요도 없이 통계학이나 기계학습 등 이른바 과학의 부분을 다루는 능력입니다. 두 번째는 여러 가지 도구를 이용해 데이터가 내포하고 있는 의미를 가시화하거나 지식으로 창출하는 능력. 세 번째는 이러한 지식에 근거해 실제 경영문제에 대한 개선책이나 신규전략 등을 제시하여 비즈니스 의사결정에 이바지하는 능력입니다.

이런 능력자는 얼마나 있을까요? 위에 링크한 기사에도 나와 있지만

What kind of person does all this? What abilities make a data scientist successful? Think of him or her as a hybrid of data hacker, analyst, communicator, and trusted adviser. The combination is extremely powerful—and rare.

그런 사람은 거의 없다고 보는 것이 옳겠죠. 그래서 기업은 위 능력을 모두 갖춘 데이터 과학자 한 사람을 찾기보다는 팀을 꾸려야 합니다. 문제는 팀을 어떻게 구성하느냐가 매우 중요한 요건이 되겠지요. 그러면 실제로 기업에서는 어떤 능력을 갖춘 사람을 데이터 과학자로 채용하고 있을까요?

대체로 데이터 과학자라는 직종을 처음 모집하기 시작한 기업은 Facebook이라 알려져있습니다. 필시 비슷한 인재를 Google, Microsoft, Yahoo! 등에서도 모집하겠지만, 데이터 과학자를 직종으로 정의하여 실제로 채용하게 된 것은 Facebook이 최초가 아닐까 생각합니다. 그러면 Facebook은 어떤 인재를 데이터 과학자로 정의하고 어떤 능력을 요구하고 있을까요? 데이터 과학자 채용 페이지를 보면

업무과제

  • 제품이 안고 있는 중요한 과제를 파악하고 그것을 해결하기 위해 제품을 개발하는 엔지니어 팀과 밀접하게 관련하여 일하기
  • 이용 가능한 데이터에 대해 적절한 통계적 방법을 이용하여 제품이 안고 있는 과제를 해결
  • 얻은 지식을 매니저 및 엔지니어와 공유
  • 새로운 데이터 수집 및 기존 데이터 소스 개량
  • 제품에 관한 실험(A/B 테스트와 같은?)결과의 분석과 해석
  • 데이터 측정 및 실험방법의 모범사례를 개발하고 제품개발 엔지니어와 공유

필요한 능력

  • 관련 분야 석박사 혹은 4년 이상의 실무경험
  • 정량적 접근에 근거한 분석문제 해결에 대한 풍부한 경험
  • 다양한 데이터 소스로부터 복잡하고, 대용량인, 다차원 데이터를 무리 없이 다루고 분석할 수 있는 능력
  • 경험적 조사연구 및 어려운 문제를 데이터에 근거해 해결하고자 하는 열의
  • 다양한 수준의 정밀성에 대응하여 분석하는 능력
  • 복잡하고 정량적인 분석결과를 명확하고 정확하게 그리고 행동력 있게 전달하는 능력
  • Python 혹은 PHP 등 스크립트 언어 중 적어도 하나를 무리 없이 사용할 수 있는 능력
  • 관계형 데이터베이스 및 SQL 능력
  • R, Matlab, SAS 등 분석 도구에 대한 전문지식
  • 대용량 데이터 세트 및 분산처리 시스템을 이용한 업무경력 (MapReduce, Hadoop, Hive, etc.)

또한 Facebook에서는 데이터 과학자와는 별도로 Quantitative Researcher라 하는 직명의 직원을 채용하고 있습니다. 직역하면 정량적 연구 연구원, 의역하면 데이터 과학 연구원 정도 되겠군요. 채용페이지를 보면

업무과제

  • Facebook 데이터 자산의 성장: 직접 사용자로부터 피드백을 수집하는 인프라를 확장. PC/스마트폰/태블릿에서 사용자 행동데이터를 측정.
  • 데이터 분석 틀을 계획: Facebook의 성장과 사회 기여를 넓히기 위해 데이터 자산을 어떤 영역에 사용할 것인가를 파악. 전 조직에 걸쳐 확장할 수 있고 제품 및 비즈니스 오너의 의사결정에 도움이 되는 계량법, 모형 및 분석 프레임워크 개발.
  • 문제 해결: 과거 데이터 혹은 필요에 따라 실험 및 조사 데이터를 이용해 사용자 행동의 인과관계를 추정하고, 노이즈로 부터 신호를 추출하고 그 신호가 무엇인가 노이즈가 무엇인가를 설명하고 예측하고… 여하튼 정확하고 정량적인 이해를 통해 팀이 무엇을 최우선으로 대처해야 할까에 대한 방법을 정의

필요한 능력

  • 정량적 연구분야(통계학, 컴퓨터 사이언스, 수학, 공학, 기계학습 등) 석박사 소지자 혹은 해당 분야의 4년 이상 경력 소지자
  • R / SAS / Matlab, UNIX, 스크립트 언어를 이용한 데이터 조작과 분석에 능한 자
  • 응용 정량적 연구에 대한 관심 및 경험
  • 의미 있고 효과 있는 문제를 해결하고 제안하는 능력
  • 복잡한 데이터 분석과 그 결과를 청중에게 전달하는 소통 능력
  • 1TB 이상 큰 데이터를 다뤄본 경험

위 모집 요건을 보면 미래의 Facebook을 위한 기초연구체제를 구축하려는 강한 의지를 엿볼 수 있습니다. 꼭 Facebook 만이 아니라 세상이 원하는 데이터 과학자와 데이터 과학 연구자는 이 정도 능력을 가진 자여야 한다는 메시지도 될 수 있겠네요. 따라서 미래에 데이터 과학자의 직업을 가지려면 위에서 나열한 능력 및 기술은 습득해야 한다는 이야기. 저도 데이터 과학자라 불리고 싶은 욕망이 있기에 앞으로도 고삐를 늦추지 말아야겠습니다.

과장된 이야기일지 모르겠지만, Google, Amazon, Facebook, Netflix, Twitter등등 소위 요즘 잘나가는 IT기업들이 단지 파는 것이 다를 뿐 이들의 장사도구는 데이터(big data)가 아닐까요?

comments powered by Disqus