알파고 개발자, AI 다음 10년을 이끌 기술로 왜 강화학습 강조하나

딥러닝이 주도하는 지금의 인공지능(AI) 기술을 이끌 차세대 키워드는 무엇일까?이세돌을 누른 바둑 인공지능 알파고 개발자인 데미스 하사비스 딥마인드 대표는 강화학습을 차세대 기술 키워드로 꼽는다. 

'로봇의 부상' 저자 마틴 포드가 전세계적으로 유명한 AI 전문가들과 AI에 대한 다양한 주제로 대담한 내용을 정리한 책 AI마인드에 따르면 하사비스 대표는 딥러닝의 다음 10년은 강화학습의 발전을 주목해야 한다고 강조한다.

강화학습은 머신러닝의 방법론 중 하나로 에이전트(특정 목적에 대해 사용자를 대신하여 작업을 수행하는 자율적 프로세스)가 주어진 환경에서 어떤 환경을 취하고 어떤 이로부터 어떤 보상을 얻으면서 학습을 진행합니다. 즉 강화학습은 시행착오를 통해 학습하는 방법 중 하나입니다. 현재 강화학습은 대부분 게임 및 로봇 분야의 문제를 푸는데 활용되고 있지만 실제로 유용한 애플리케이션을 만든 사례는 아직 없습니다. 하지만 구글의 자회사이자 알파고를 만든 딥마인드와 같은 기업들이 강화학습에 대한 연구를 활발히 진행하고 있으며, 자율주행차, 자원관리, 교육시스템 등에 널리 활용될 것이라 생각됩니다.-AI마인드 용어 정리 부분 인용

현재 딥러닝 기술은 지도학습 중심이다. 

지도학습은 정답이 주어진 데이터를 사용해 컴퓨터를 학습하는 방법입니다. 예를 들어 강아지와 고양이를 분류할 수 있는 시스템을 만들기 위해 강아지 사진과 고양이 사진과 함께 이 사진이 강아지인지 고양이인지 알수 있는 답을 활용합니다. 강아진 사진을 넣었을 때 이 분류기는 강아지라고 예측해야 하며, 고양이라고 예측한다면 틀렸다는 피드백을 줍니다. 피드백을 받게 된 시스템은 다시 수정하고 이 과정을 반복하면서 학습을 하고 수정을 거쳐 강아지와 고양이를 구분할 수 있게 됩니다. 지도학습은 머신러닝의 방법론 중에 가장 흔이 쓰이고 있으며, 문자인식, 음성인식, 이미지 분류, 언어 번역 등 거의 모든 애플리케이션에서 활용되는 방법입니다.-AI 마인드 용어 정리 부분 인용

하사비스는 딥러닝이 기술을 키우기 위해서는 다른 기술과 결합해야 하며, 그 핵심은 강화학습이 될 것이라는 입장이다.

앞으로는 그럴거에요. 제 생각에는 그 기술 자체로 상당히 강력하지만 규모를 키우기 위해서는 다른 것들과 결합시켜야 합니다. 강화학습은 오래전부터 연구되어 왔지만 적용 범위를 확장할 수 있는 부분이 상당히 어렵기 때문에 아주 작은 쉬운 문제들을 푸는데만 사용되어 왔죠. 우리는 아타리 게임에서 딥러닝을 활용해 화면의 정보와 환경들을 처리했어요. 그러니 강화학습이 잘 적용되었고 10년전만 해도 불가능하다고 여겨졌던 많은 것들이 해결됐습니다. 알파고와 DQN에서 다루었던 문제들 말이죠.

우리가 왜 그렇게 자신있게 말할 수 있는지 생각해보면 향후 몇년 동안 딥러닝 만큼 강화학습이 많이 발전할 것 같기 때문입니다. 강화학습을 진지하게 연구하는 곳은 딥마인드가 거의 유일한데요, 신경 과학 입장에서 보면 인간은 어떤 것을 배울때 시각차 학습이라 불리는 강화학습의 한 형태와 같은 메커니즘으로 학습한다고 합니다. 인간의 두뇌에서는 도파민 시스템이 이를 작동시켜요.

도파민 뉴런은 뇌에서 예측한 오류를 추적하고 그 보상 신호에 따라 시냅스를 강화시킵니다. 두되는 이런 원리를 따라 작동하며 이것만이 일반 인공지능을 실현할 해결책이라고 생각합니다. 그래서 신경과학쪽을 아주 유심히 보고 있죠. 뭐 유일한 해결책은 아닐 수 있겠지만 생물학적 영감에서 얻은 강화학습은 스케일만 키울 수 있다면 충분히 일반 인공지능을 실현할 수 있는 방법이 될 것이라고 생각합니다. 물론 아직 풀리지 않은 부분들과 기술적으로 어려운 부분들이 상당히 많지만요.

아직까지 강화학습은 범용적으로 쓰기에는 한계가 있다는 평가가 많다. 이와 관련해 하사비스는 지금은 한계가 많다는 것을 인정하면서도 신경과학과 결합한다면 큰 발전이 가능하다고 강조한다.

강화학습은 더 넓은 범위로 확장해야 하는 문제가 있습니다 우리의 두뇌는 그렇게 하니까요. 그런데 두뇌가 강화학습의 메커니즘을 사용한다는 것을 몰랐다면 강화학습의 한계점을 개선해야할 필요를 느꼈을까요? 이렇게 집중해야할 부분을 좁히는게 그만큼 중요한데, 신경과학을 무시하는 대부분의 사람들은 이점을 간과하는 것 같습니다. 신경과학에 기반을 두고 인공지능을 개발하는 것이 두뇌에 관한 복잡한 문제를 잘 풀수 있는 최적의 방법이라고 믿습니다. 신경과학을 바탕으로 인간의 두뇌에 버금가는 독특한 특성들을 가진 인공지능 시스템을 만들 수 있을거에요. 의식, 창의력, 꿈과 같은 신비를 밝혀낼수도 있겠죠.

강화학습 외에 하사비스가 강조한 기술을 비지도학습과 전이학습이다.

비지도학습은 지도학습과 달리 데이터에 대한 정답이 주어지지 않은 데이터를 활용해 학습하는 방법입니다. 정답이 없기 때문에 맞는 예측을 했는지에 대한 피드백을 받을 수 없고, 교정을 할수도 없습니다. 예를 들어 고양이와 강아지 사진이 있다고 해도 컴퓨터는 이 사진이 고양이인지 강아지인지 알지 못합니다. 대신 비슷한 사진들끼리 묶어 2개의 집단으로 분리합니다. 비지도학습의 대표적인 방법으로 군집화가 존재하며 페이스북에서 특정 집단의 사람들을 그룹화하는 알고리즘 등에서 쓰입니다. 지도학습에 비해 활용되는 정도가 낮지만 수십만, 수천만 개의 데이터에 일일이 정답을 맏들 수 없으므로, 머신러닝의 발전에 필요한 방법론중 하나로 평가되고 있습니다.-AI마인드 용어 정리 부분 인용

비지도학습은 대단히 중요한데, 이부분에 대한 연구도 계속하고 있습니다. 여기서 한가지 질문드려 볼게요. 더 나아지겠다는 내재적 동기가 한가지 보상으로 작용하고 그게 비지도학습을 이끄는 것이라고 볼수 있지 않을까요? 정보를 습득한다고 해봅시다. 정보를 습득하는 것은 사람의 뇌에게 내재적인 보상을 준다고 할수 있지 않을까요?

전이학습에 대해서는 이렇게 설명한다.

전이학습이란 한 영역에서 적용되는 지식이 전혀 보지 못한 다른 영역에서도 유용하게 적용될 수 있는 것을 말합니다. 저에게 새로운 일을 주면 비슷한 일, 구조적으로 유사해 보이는 것의 개념들을 차용해 바로 처리할 수 있는 것처럼 말이죠. 반면 컴퓨터는 많은 데이터가 필요하므로, 그런 일들을 상당히 못합니다. 반드시 개선해야할 점이죠.

테크잇 뉴스레터를 전해드립니다!

오피니언 기반 테크 블로그 'TechIt'
테크 비즈니스를 보는 다양한 통찰들을 이메일로 간편하게 받아 볼 수 있습니다.

About the author

endgame
endgame

테크 블로거 / 공유할만한 글로벌 테크 소식들 틈틈히 전달하겠습니다

No more pages to load


TechIT

테크 비즈니스를 보는 다양한 통찰 '테크잇'

독자 여러분들께서 좋은 의견이나 문의 사항이 있으시면 아래 양식에 따라 문의 주시기 바랍니다.

Contact