빅데이터는 빅데이터이다

 
By 2012년 7월 16일 
TAGGED :

여전히 빅데이터에 대한 관심과 열기가 뜨겁다. 올해 상반기를 지나면 주춤할 것 같았지만 아직도 빅데이터를 내건 여러 컨퍼런스가 진흥원, 솔루션업체, 학회등의 후원에 힙입어 여기저기 열리고 있다. 다른 분야 컨퍼런스보다 참석자 수도 많고 참석자들 면면을 봐도 다양한 사람들이 빅데이터에 관심을 가지고 있는 듯 하다. 빅데이터가 무엇인지 자신들이 속해 있는 분야의 기업과 연구 등에 어떻게 하면 빅데이터를 활용할 수 있을 것인지 고민하고 있는 듯 하다.

새삼스레 빅데이터가 무엇인가를 설명할 필요는 없을테지만 보통 빅데이터의 “빅”은 3V, Volume, Velocity, Variety 라는 의미를 담고 있다. 즉, 큰 데이터를 다룬다는 점, 배치와 실시간, 스트림이라는 데이터 처리 속도와 관련된 점을 고려해야 한다는 점, 일반적으로 데이터베이스에 저장된 정형화 데이터와 더불어, 비정형 데이터라고 말하는 텍스트,이벤트 데이터, 오디오, 비디오와 같은 멀티 미디어 데이터 등을 다룬다는 의미가 “빅” 이라는 단어에 담겨 있다고 생각하면 될 것이다. 마치 클라우드 컴퓨팅의 클라우드가 원래 의미가 여러가지 인프라적인 기술과 인프라를 담고 있는 것과 마찬가지이다.

최근 솔루션 업체의 컨퍼런스 발표자료나 학계에서 발표하는 내용들을 보면 많은 데이터의 분석, 데이터 과학자, 데이터 마이닝, 예측 분석 등에 좀더 집중해서 설명을 하고 있다. 물론 데이터의 가치(Value)을 찾아낸다는 측면에서 이 영역이 빅데이터의 핵심이자 앞으로의 비전인 것은 분명히 맞다. 하지만 대부분은 이들의 핵심 솔루션이나 역량이 이쪽에 있는 것이기 때문에 그런 경향을 보이는 것은 아닌가 생각되기도 하다

반면 개발자 중심의 빅데이터 컨퍼런스의 내용을 살펴보면 많은 내용이 플랫폼에 집중되어 있다. 이러한 컨퍼런스에서는 다양한 분산 컴퓨팅 플랫폼에 대한 기술과 경험에 대해 얘기들을 하고 있다. 당연히 아파치 하둡(Apache Hadoop)과 다양한 NoSQL에 대한 기술적인 논의와 사례들이 주를 이룬다. 특히 각 필드에서 개발자 자신들의 경험을 얘기하고 있기 때문에 좀더 생생하고 더 흥미롭다.

잘 알다시피 RDBMS 기반의 정형화된 데이터를 활용하는 상용 데이터 플랫폼과 이를 이루는 다양한 하드웨어, 소프트웨어 컴포넌트 시장은 이미 성숙해있고 우리가 잘 알고 있는 IBM, 오라클, 마이크로소프트, 테라데이터, EMC 등과 같은 회사들이 이러한 솔루션 시장을 이미 선점하고 있다. 금융, 대기업, 공공시장의 고객들은 비싼 솔루션 비용과 유지보수 비용을 들여서 이러한 솔루션을 도입하고 기술지원을 받고 있었다. 여기에는 그만큼의 가치를 뽑아낼 수 있다는 전제가 있다. 그렇기 때문에 기꺼이 솔루션업체에게 높은 비용을 기꺼이 지불하고 있는 것이다.

최근 웹,모바일 서비스의 확대, 이를 연결하는 PC, 모바일 디바이스 및 서비스 플랫폼에서 만들어내는 대용량의 데이터로 인해 기존 RDBMS 기반 데이터플랫폼이 수용하기에는 치루어야할 비용이 어마어마하게 커지게 되었다. 데이터 역시 분석이 용이하게 정형화되어 있지도 않고 데이터소스도 다양해지면서 상용 솔루션들은 이를 처리할 수 있는 기술이 없는것은 아니였겠지만 ROI 측면에서 이득이 적었을 것이다.

이러한 상황에서 아파치 하둡이라는 것이 등장하면서 기존 생태계에 큰 충격을 주게 된 것이라고 봐도 된다. 하둡이 제공하는 분산파일시스템 (HDFS)과 맵리듀스(MapReduce)는 매우 단순한 프로그래밍 모델을 분산환경에 적용한 프레임워크이다. 기존 데이터 플랫폼과는 다른 접근 방법으로 테라바이트, 페타바이트라고 하는 대용량 데이터 저장에 드는 비용과 분석에 드는 시간과 비용을 상대적으로 줄였다고 생각하면 된다. 구글, 야후, 페이스북과 같은 글로벌 웹서비스 회사들이 이러한 기술에 관심을 가질 수 밖에 없고 이들을 통해서 적용된 기술들이 공개되고 있는 것들은 어찌 보면 당연한 것일지도 모른다. 이것은 마치 10여년전에 불어온 리눅스의 열풍과도 닮은 점이 많다.

결국 빅데이터에서 가장 큰 난제 중에 하나는 어떤 것일까? 바로 분석해야 할 데이터를 확보하는 문제이다. 수백기가 규모의 데이터가 아니라 테라바이트에서 페타바이트에 이르는 데이터를 수집하고 저장하고 정제하는 체계와 시스템을 갖추는 일이다. 무엇보다 빅데이터는 빅데이터(대용량 데이터)를 다루는 것을 말한다. 데이터 처리 속도(Velocity), 데이터의 다양성(Variety)도 빅데이터를 위해서 고려해야 할 것중에 하나지만 우선 대용량 데이터에 (Volume) 저장과 처리를 어떻게 할 것인가를 가장 먼저 고민해야 했다.

이를 지원하기 위해서 수십대에서 수천대에 이르는 서버머신과 네트워크를 구성해야 하는데, 그러려면 기존 데이터플랫폼과는 다른 패러다임 전환이 필요하다. 클러스터를 구성하는 하드웨어 장비는 언제든지 장애가 날 수 있다는 점을 받아들이고 이러한 상황에서도 데이터 손실을 최소화하고 쉽게 복구할 수 있는 기능을 갖춘 분산 컴퓨팅 프레임워크 기술에 대한 깊은 이해가 필요하다. 이와 관련해 아파치 하둡은 가장 중요한 기술로 떠올라 있다. 구글이 적용하고 있는 아키텍처를 바탕으로 야후 엔지니어들이 자체 개발을 하고 자신들의 데이터 플랫폼에 적용했을 뿐 아니라 경험을 담아 오픈소스로도 내놓은 기술인 만큼 그 이전의 어떠한 분산 컴퓨팅 프레임워크보다 관심을 가질 수 밖에 없다.

그렇다면 국내에서 이러한 관점에서 이정도 규모의 빅데이터를 다루고 분석할 수 있는 환경을 접할 수 있는 곳은 어디일까? 포털회사, 게임회사, 통신회사 그리고 일부 제조회사 같은 몇몇 군데로 한정될 수밖에 없을 것이라고 생각된다. 이러한 관점에서 당장 국내에서 빅데이터 솔루션이 필요로 하는 곳은 한정될 수 밖에 없고 시장 규모역시 적을 수 밖에 없다.

그럼에도 우리는 빅데이터에 관심을 가져야 한다. 빅데이터의 미래 가치는 전에는 가치가 없다고 생각했던 각종 센서 데이터, 로그데이터, 트랜잭션 로그 데이터로부터 새로운 가치를 찾아내고 경쟁력을 갖출 수 있다는데 있다. 당장은 그 어디에도 대용량 데이터 마이닝이나 추천엔진이나 예측모델을 만들어 낼 수 있는 데이터조차 없다.

하지만 그 어느때보다 저비용으로 대용량 데이터를 저장하고 처리할 수 있는 하둡과 NoSQL과 같은 공개 소프트웨어들이 소개되어 있다. 10여년전 리눅스가 그랬듯이 빅데이터 플랫폼 구축을 저가의 범용서버와 범용 네트워크 스위치로 시작할 수게 되었다. 빅데이터를 처리할 수 있는 다양한 스크립트 언어와 기술문서들도 넘쳐나고 있다.

그동안 비용적인 측면에서, 기술역량이 부족하다는 핑계로 미뤄뒀던 기업들도 자신들의 데이터에 좀더 관심을 가져보자. 일단 데이터를 저장하고 세어 보고 분석을 시도해보자. 더 이상 하둡, NoSQL 이라는 기술은 어려운 기술이 아니다. 단지 익숙하지 않을 뿐이다.

빅데이터와 관련된 다양한 기술 동향이나 솔루션 업체들의 성공 사례에 귀기울이는 것은 더 이상 하지 않아도 된다. 자신들이 어떠한 데이터를 가지고 있는지 거기에서 어떠한 가치를 찾아낼 수 있는지는 자신들이 제일 잘 알 수 밖에 없다. 빅데이터도 결국 데이터이다. 이제는 기술보다는 데이터에 더 관심을 가져야 할 때다. 시간을 가지고 자신들의 데이터를 “빅” 데이터로 만들때이다.

페이스북으로 댓글을 남기실 수 있습니다.
THE AUTHOR
현재 줌인터넷(주) 검색기술본부 부설연구소장. 2008년말부터 SK텔레콤 및 SK플래닛에서 하둡기반의 대용량 데이터 마이닝 시스템 개발 및 빅데이터 플랫폼 과제의 소프트웨어 아키텍트 및 프로젝트 매니저로 근무하였다. 최근 관심 분야는 빅데이터 프로세싱, NoSQL 및 다양한 분산 컴퓨팅이며, 개인 블로그 kimws.wordpress.com을 운영하고 있다.
 
Comments Off ADD COMMENT ↓

Comments are closed.