데이터 사이언스를 둘러싼 3가지 오해와 진실

데이터들에서 일정 패턴을 뽑아내기 위한 일련의 규칙, 문제의 정의, 알고리즘 및 처리 과정을 아우르는 개념인 데이터 과학은 언제부터인가 기업의 경쟁력을 좌우하는 중량급 변수로 부상했다. 인공지능에 대한 관심이 커지면서, 데이터 과학의 전략적 가치도 부쩍 커졌다. 

구글, 페이스북, 넷플릭스 등 데이터 과학 역량에 힙입어 성장했다는 회사들의 성공 스토리들 소에 데이터과학을 실행하는 데이터 과학자는 뭔가 첨단 냄새 많이 풍기는 잘나가는 직종이 됐다.

디지털 시대, 원유라는 평가까지 받는 데이터를 다루는 분야지만, 대충 뚝딱 한다고 데이터 과학에 대한 역량이 생기는 것은 아니다. 데이터 과학을 한다고 갑자기 없던 경쟁력이 하루아침에 생기는 것도 아니다. 가능성이 큰 만큼, 준비해야할 것들 또한 많은 분야가 바로 데이터 과학이다.

존 켈러허 , 브렌던 티어니아 쓴 책 '데이터과학'에 따르면  오늘날 데이터 과학이 조직들에 많은 이점을 가져다 줄 수 있다는 것은 사실이지만 그것을 둘러싼 과장도 역시 많다. 따라서 그 한계가 무엇인지도 알아야 한다. 

저자들은 데이터 과학에 대한 미신을 크게 3가지로 요약했다.

첫번째는 자동화된 공정에 우리 데이터를 맡기기만 하면 모든 문제에 대한 답을 주리라는 생각이다. 데이터과학은 컴퓨터 프로그래밍이 들어가 있으니, 자동화 냄새가 많이 풍기지만 의미있는 성과를 내기 위한 사람들의 판단이 적지 않게 요구된다.

실제 데이터 과학은 공정의 각 단계마다 이를 감독할 노련한 인간 전문가가 필요하다. 인간 분석자는 문제를 규정하고, 필요 데이터를 설계-준비하고, 어떤 기계학습 알고리즘이 가장 적합한지 결정하고, 분석결과를 비판적으로 해석하고 분석이 드러낸 통찰을 바탕으로  적절한 실행 계획을 세우는일들을 맡아야 한다. 노련한 인간 감독자가 없으면 데이터 과학 프로젝트는 목적 달성에 실패할 수 밖에 없다.

데이터 과학에 대한 두번째로 큰 미신은 모든 데이터 과학 프로젝트는 빅데이터가 필요하며, 딥러닝 기술을 써야만 한다는 것이다. 요즘 데이터 과학을 주도하는 기술은 딥러닝 기반 인공지능이다. 딥러닝은 데이터가 많을 수록 좋은 결과를 뽑아낼 수 있다. 하지만 저자들은 대규모 데이터가 아니라도 데이터 과학을 수사할 수 있다고 강조한다.

일반적으로 더 많은 데이터를 가지고 있으면, 좋은 게 사실이지만, 그것보다 맞는 데이터를 갖고 있는게 더 중요하다. 데이터 과학 프로젝트는 구글, 바이두, 마이크로소프트 같은 회사에 비해 훨씬 작은 데이터와 컴퓨터 역산력을 가지고 있는 조직에서도 자줘 이뤄진다. 월 100건의 보험금 심청을 받는 보험 회사에서 보험금 예측에, 1만명 미만의 학생이 중퇴하는 대학에서 중퇴 예측에, 수천명 회원으로 구성된 노동 조합에서 조합원 탈퇴 예측에 데이터 과학을 사용하는 작은 규모의 프로젝트들이 실제 있다.

세번째 미신은 현대 데이터 과학 소프트웨어가 쓰기 편하니 데이터 과학도 하기 쉽다는 것이다. 데이터 과학은 꽤 품이 많이 들어가는 분야라는 얘기다.

데이터 과학 도구들이 보다 사용자 친화적으로 된 것은 사실이다. 하지만 사용의 편리함에 가려져서 해당 도메인에 대한 지식과 데이터의 특징 및 서로 다른 기계 학습 알고리즘의 근본 가정들에 대한 이해라는 양쪽의 자질을 모두 갖추고 있으며, 데이터 과학을 수행할 수 있다는 사실은 보지 못하기 쉽다.  

사실 지금처럼 데이터 과학을 잘못하기 쉬운때도 없다.  다른 모든 일들과 마찬가지로 데이터 과학을 하면서, 지금 무슨 일을 하고 있는지 제대로 이해하지 못한다면, 실수를 하기 마련이다. 데이터 과학의 위험은 사람들은 기술을 두려워하기 때문에 소프트웨어가 내놓은 결과는 무엇이든, 믿은 경향이 있다는 점이다. 잘못된 데이터 과학의 경우 분석자가 잘 모르고 문제를 잘못 정의하거나 엉뚱한 데이터를 쓰거나 잘못된 가정 아래 분석 기술을 적용했을 수 있다. 이 경우 소프트웨어 내놓는 결과는 잘못된 질문에 대한 답이거나 잘못된 데이터에 기초했거나 틀린 계산의 결과물이 되는 것이다.

끝으로 덧붙이고 싶은 미신은 데이터 과학이 금방 제값을 하리라는 생각이다. 실제는 조직의 상황에 따라 달라진다. 조직이 데이터 기반 시설을 구축하고 데이터 과학 전문성을 지닌 인력을 고용해야 하는 경우  데이터 과학 도입 초기에 상당한 투자가 필요하다. 그렇게 해도 모든 프로젝트에서 늘 좋은 결과가 나오는 것은 아니다. 데이터 분석을 한다고 늘 숨겨진 보석 같은 통찰이 나오는게 아니며, 설사 좋은 결과가 나와도 조직에 그에 따른 실행 계획을 세우지 못할 수도 있다.

테크잇 뉴스레터를 전해드립니다!

오피니언 기반 테크 블로그 'TechIt'
테크 비즈니스를 보는 다양한 통찰들을 이메일로 간편하게 받아 볼 수 있습니다.

About the author

endgame
endgame

테크 블로거 / 공유할만한 글로벌 테크 소식들 틈틈히 전달하겠습니다

No more pages to load


TechIT

테크 비즈니스를 보는 다양한 통찰 '테크잇'

독자 여러분들께서 좋은 의견이나 문의 사항이 있으시면 아래 양식에 따라 문의 주시기 바랍니다.

Contact