어떤 데이터 과학 프로젝트는 성공하고 또 어떤 것은 실패하는가

데이터를 분석해 의미있는 결과물을 뽑아내는 과정은 엔터키 치면 바로 답이 나오는 식의 프로세스와는 거리가 멀다. 많은 준비과 단계 그리고, 무엇보다 조직내 다양한 구성원들의 협력이 요구되는 일이 바로 데이터 과학 프로젝트다.

존 켈러허 , 브렌던 티어니아가 쓴 책 '데이터과학'에 따르면 데이터 과학 프로젝트가 존재감을 갖는 것은 다양한 요소들이 모두 받쳐줘야 가능한 일이다.

데이터 과학 프로젝트는 가끔 어떤 기술적 또는 정치적 문제로 교착 상태에 빠지거나 유용한 결과를 내놓지 못하거나 더 흔하게는 한번은 작동했는데 다시는 작동하지 않는 등 실패하기도 한다. 레오 톨스토이의 안나 카레니나에 나오는 행복한 가정에 대한 이야기처럼 데이터 과학 프로젝트 성공은 여러 요소에 달려 있다. 

성공적인 데이터 과학 프로젝트는 집중력, 좋은 품질의 데이터, 적합한 사람들, 여러 모델로 실험해보고자 하는 열성, 비즈니스 정보 기술 아키텍처 및 프로세스와 결합, 관리층의 승인, 현실 세계의 변화에 따라 뒤떨어진 모델을 반규칙적으로 다시 만들기 위한 조직의 인식 등이 필요하다.

성공적인 데이터 과학 프로젝트로 가는 길과 관련해 저자들은 7가지 키워드를 강조한다.

첫번째는 집중력이다.

모든 성공적인 데이터 과학 프로젝트는 해결을 돕고자 하는 문제에 대한 또렷한 정의로부터 시작한다. 여로 모로 이는 상식적인 말이다. 분명한 목표가 없으면, 어떤 프로젝트가 성공하기는 쉽지 않다. 

두번째는 데이터다.

문제가 잘 정의되면, 프로젝트에 어떤 데이터가 필요한지도 잘 정의할 수 있다. 어떤 데이터가 필요한지에 대한 분명한 이해는 필요한 데이터가 있는 곳으로 프로젝트를 이끌어 가는데 도움이 된다. 이는 또한 현재 무슨 데이터가 사용 불가능한지 파악하고, 그 데이터를 수집해 사용 가능하도록 만드는 추가 프로젝트도 가능케 한다. 

사용자는 데이터의 품질도 중요하다. 조직에는 엉성하게 설계된 애플리케이션, 나쁜 데이터 모델, 데이터를 잘 입력하도록 제대로 훈련 받지 못한 직원 문제 등이 있을 수 있다. 사실 무수히 많은 문제로 시스템에 질 나쁜 데이터가 들어올 수 있다. 좋은 품질의 데이터를 얻기 위해 일부 조직은 데이터를 끊임없이 조사하고 그 품질을 평가하고 애플리케이션 또는 입력하는 사람을 통해 수집하는 데이터 질을 어떻게 향상할 것인지에 대한 피드백을 제공하는 전문가를 고용하기도 한다. 좋은 품질의 데이터없이, 데이터 과학 프로젝트가 성공하긴 매우 어렵다.

세번째는 인력이다.

데이터 과학 역량과 기술을 함께 갖춘 사람들로 구성된 팀이 있을떄 성공적인 데이터 과학 프로젝트가 가능하다. 조직에 있는 다양한 역할의 사람들이 데이터 과학 프로젝트에 기여할 수 있으며, 또 그래야 한다.  

데이터베이스를 다루는 사람, 추출, 변환, 적재 공정을 하는 사람, 데이터 통합을 하는 사람, 프로젝트 매니저, 비즈니스 분석가, 도메인 전문가 등이 여기에 포함된다. 하지만 빅데이터를 다룰 줄 알고, 기계 학습을 적용해 현실 세계의 문제를 데이터 주도 솔루션에 맞게 정의할 수 있는 데이터 과학 전문가를 채용할 필요도 있을 것이다.

네번째는 어떤 모델을 선택하느냐 하는 것이다.

데이터 세트와 무엇이 가장 잘 맞는지 여러 기계 학습 알고리즘을 실험해 보는 것은 중요한 일이다. 문헌에는 주어진 사례에 대한 단 하나의 기계학습 알고리즘만 쓴 경우가 매우 많은 편이다. 이는 저자가 가장 잘 작동한 알고리즘만 언급했기 때문이거나 또는 그것이 가장 좋아하는 알고리즘이기 때문일 것이다. 현재는 신경망과 딥러닝이 많은 관심을 받고 있다. 하지만 쓸수 있는 다른 여러 알고리즘들이 있으며, 이런 대안들을 반드시 검토하고 실험해야 한다.

다섯번쨰는 비즈니스와의 통합 이슈.

데이터 과학 프로젝트의 목표를 정의할때 프로젝트의 생산물과 결과가 조직의 정보 기술 아키텍처와 비즈니스 공정에 어떻게 결합될수 있는지 정의하는 것은 필수이다. 이렇게 해야만 모델이 기존 시스템의 어디에 어떻게 결합되는지 미리 파악할 수 있으며, 산출되는 결과가 시스템의 최종 사용자에게 어떻게 쓰이는지, 다른 공정에 쓰일수는 없는지 등을 알 수 있다.

이런 공정이 더 자동화되어 있을 수록 조직은 고객의 변화하는 프로파일에 따라 더 빠르게 대응할 수 있으며, 비용은 줄이고, 수익은 늘릴 가능성도 따라서 높아진다. 예를 들어 은행에서 대출 신청을 할때 이를 받아들이는 프론트 엔드 시스템에 결합할 수 있을 것이다.

여섯번째는 고위 경영진의 지원이다.

조직의 대부분 프로젝트에서 고위 관리직의 지원은 데이터 과학 프로젝트의 성공에 필수적이다. 하지만 많은 고위 정보기술 관리자는 당장 당면한 문제에만 초점을 맞추는 경우가 많다.  저 작업의 불이 커지게 해선 안된다. 

애플리케이션이 그날 그날 완전히 작동되도록 하라, 백업과 복구 프로세스가 잘되어 있는지 확인하라 등등이다. 그래서 비즈니스 고위 관리자의 후원을 받아야 데이터 과학 프로젝트가 성공하는 경우가 많은데, 왜냐하면 비즈니스 고위 관리직은 구체적인 기술보다 데이터 과학 프로젝트가 연관되는 조직 공정과 프로젝트의 결과물이 어떻게 조직 전체에 득이 되는지 등에 초점을 맞추기 때문이다.

마지막으로 일곱번째는 반복적인 작업을 계속 하는 것이다.

대부분의 데이터 과학 프로젝트는 반규칙적으로 업데이트되고, 신선하게 유지되어야 한다. 각 업데이트 또는 반복 때마다 새 데이터가 추가되거나 새 업데이트가 더해지거나 새 알고리즘을 쓰는 일 등등이 있을 수 있다. 반복의 빈도는 프로젝트마다 다를 것이다. 매일이나 분기마다 또는 반년이나 일년마다 있을 수 있다. 상품화된 데이터 과학 산출물의 경우 언제 모델 업데이트가 필요한지를 감지하는 확인 기능이 안에 꼭 포함돼 있어야 한다.

테크잇 뉴스레터를 전해드립니다!

오피니언 기반 테크 블로그 'TechIt'
테크 비즈니스를 보는 다양한 통찰들을 이메일로 간편하게 받아 볼 수 있습니다.

About the author

endgame
endgame

테크 블로거 / 공유할만한 글로벌 테크 소식들 틈틈히 전달하겠습니다

No more pages to load


TechIT

테크 비즈니스를 보는 다양한 통찰 '테크잇'

독자 여러분들께서 좋은 의견이나 문의 사항이 있으시면 아래 양식에 따라 문의 주시기 바랍니다.

Contact