딥마인드의 게임 AI 알파스타, 알파고보다 더 주목받는 이유

구글 모회사인 알파벳의 인공지능 부문 자회사인 딥마인드가 스타크래프트2에서 인간을 능가하는 역량을 가진 인공지능(AI) 시스템을 선보였다. 알파스타가 바로 그것. 바둑만 잘뒀던 알파고와 달리 알파스타는 다른 쪽에도 적용 가능한 범용성을 좀더 갖추고 있어, 특히 주목된다.

딥러닝으로 대표되는 AI는 특정 상황의 문제만 해결할 수 있는 것이 대부분이다. A라는 문제를 해결한 AI가 B라는 문제 해결에도 적용되기는 아직은 어렵다. 범용성은 아직은 AI 분야에서 풀어야할 어려운 숙제로 남아 있다. 

딥마인드는 범용 인공지능이라는 원대한 목표를 비전을 내건 회사로, 구글의 지원 속에 막대한 연구 개발 지원을 여기에 투입하고 있다. 실전에 투입 가능한 것인지는 모르겠지만 어째튼 알파스타와 관련해 딥마인드는 다른 영역으로의 확대 적용 가능성을 강조하고 있다.

MIT테크놀로지리뷰도 이같은 관점에서 알파스타를 주목하는 기사를 실었다.

보도에 따르면 알파스타를 앞세워 딥마인드가 범용 인공 지능 탐구에서 이정표를 찍었다고 발표한 것은 지난 1월이었다. 당시 알파스타는 유명 비디오 게임인 스타크래프트2에서 두명의 프로 선수들을 눌렀다. 이것만으로도 대단한 성과라는 평가가 나왔다. 스타크래프트2는 대단히 복잡한 게임으로 매번 움직일때마다 10의 26제곱이라는 어마어마한 선택지가 부여된다.

스타크래프트2는 또한 불완전한 정보의 게임이다. 이기기 위한 명쾌한 전략이 없다. 이 성과는 머신 지능의 새로운 수준을 보여줬다고 MIT테크놀로지리뷰는 전하고 있다.

이후 딥마인드는 알파스타를 업그레이드하는 작업을 진행해왔고 최근에 다시 성과를 외부에 공개했다. 알파스타는 이제 활동하는 스타크래프트 플레이어들 거의 다수를 능가하는 능력을 갖췄다고 한다. 

보다 강력하고 그때그때 봐가며 전략화할 수 있는 반복적인 능력을 보여준다. MIT테크놀로지리뷰는 "최근 네이처에 공개된 결과는 머신 번역부터 디지털 비서, 군사 작전에 이르는 분야에 적용될 수 있는 중요한 의미를 담고 있을 수 있다"고 전했다.

스타크래프트2는 실시간 전략 게임이다. 대부분 일대일 대결 구도로 게임이 진행된다. 한 플레이어는 인간이나 에어리언 종족 3가지 중 하나를 선택해야 한다. 프로토스, 테란, 저그 중 하나를 정한뒤, 자원을 모으고, 인프라와 무기를 구축하고, 적들을 공격하는 과정을 밟게 된다. 게임에서 이기려면 많은 대안들 중 하나를 선택해야 한다. 스타크래프트2에서 모든 종족들은 고유한 스킬 세트를 갖고 있다. 승리에 영향을 미치는 제약 조건들도 있다. 따라서 플레이어들은 보통 하나를 갖고 선택한뒤 마스터한다.

알파스타는 모든 종족들과 플레이를 마스터하기 위해 시행착오를 통해 배우는 강화학습 인공지능 기술을 사용했다. 알파스타는 현재 스타크래프트2 공식 게임 리그에서 활동하는 플레이어들의 99.8%보다 상위에 랭크돼 있다. 딥마인드의 수석 연구 과학자인 데이비드 실버는 "이것은 정말로 중요하다. 이같은 유형의 방식이 원친적으로 다른 도메인에도 적용될 수 있다는 것을 의미하기 때문이다"고 강조했다. 

이같은 유연성을 달성하기 위해 딥마인드 팀은 셀프 플레이로 알려진 널리 사용되는 기술을 활용했다. 셀프 플레이를 통해 강화학습 알고리즘은 빠른 학습을 위해 스스로를 상대로 플레이할 수 있었다. 

딥마인드는 강화학습 기술을 알파고 제로를 훈련시키기 우해 사용한 것으로도 유명하다. 알파고 제로는 인간의 도움 없이 스스로를 가르쳤고, 세계 최고 바둑 기사를 물리쳤다.

통상 셀프 플레이에선 두가지 버전의 알고리즘들이 자신들의 승리 기회를 최대화하도록 프로그래밍 된다. 그러나 딥마인드 연구자들은 이것이 반드시 가장 강력한 알고리즘으로 이어지는 것은 아님을 파악했다. 이같은 개방형 게임에선 특정 조건에서만 작동하는 특정 전략으로 알고리즘을 만들 리스크가 있었다는 설명이다.

프로 스타크래프트2 플레이어들이 서로 훈련하는 방식에서 영감을 얻어, 딥마인드 연구자들은 알고리즘 중 하나를 승리 기회를 극대화하는 것이 아니라 다른 알고리즘의 약점을 노출시키기 위해 프로그래밍했다.  프로젝트 리더인 오리올 비냘스는 "이것은 친구에게 한판 붙자고 요청하는 것과 같다"면서 "이들 친구들은 당신의 약점이 무엇인지 보여주고, 그래서 당신은 결과적으로 더욱 강해질 수 있다"고 설명했다.

이 방식은 광범위한 게임 시나리오에서 적용할 수 있는 보다 일반적인 알고리즘의 등장으로 이어졌다. 딥마인드 연구원들은 알파스타의 전략 개발 및 조정 스킬이 다른 문제들에도 적용될 수 있을 것으로 보고 있다.

데이비드 실버는 "우리는 실제 세계 적용에서 나오는 많은 도전들을 반영하는 것이라고 봤기 때문에 스타크래프트를 선택했다"면서 "응용 분야는 인간과 상호 작용해야 하는 디지털 비서, 자율주행차, 다른 머신들을 포함할 수 있다"고 말했다. 이어 "스타크래프트의 복잡성은 우리가 실제 세계에서 보는 규모를 연상시킨다"고 덧붙였다.

그러나 알파스타가 당장에 실전에서 범용성을 보여주기는 쉽지 않아 보인다. 지금은 그게 가능하다는 가능성을 제시하는 수준이다.

MIT테크놀로지리뷰는 "그러나 알파스타는 AI의 상당한 한계를 보여주고 있다. 예를 들면 그것은 인간 플레이어와 같은 기술 수준에 이르기 위해 여전히 많은 훈련 데이터를 필요로 한다.  이같은 학습 소프트웨어는 여전히, 진화 로보틱스나 실제 세계 애플리케이션으로 변환되기에는 아직은 멀었다"고 전했다.

테크잇 뉴스레터를 전해드립니다!

오피니언 기반 테크 블로그 'TechIt'
테크 비즈니스를 보는 다양한 통찰들을 이메일로 간편하게 받아 볼 수 있습니다.

About the author

endgame
endgame

테크 블로거 / 공유할만한 글로벌 테크 소식들 틈틈히 전달하겠습니다

No more pages to load


TechIT

테크 비즈니스를 보는 다양한 통찰 '테크잇'

독자 여러분들께서 좋은 의견이나 문의 사항이 있으시면 아래 양식에 따라 문의 주시기 바랍니다.

Contact