알파고 제로와 학습이론

보더라인 2017. 10. 20.

2016년 최고의 이슈 중 하나는 인공지능 AI 이었습니다. 이세돌 프로와의 대국에서 승리하여 대한민국을 한동안 떠들썩하게 만들었던 알파고를 기억하시나요? 당시 한국에서 엄청난 관심을 끌면서 4차산업혁명에 대해 사회 각층의 관심을 모았고, 한동안 서점의 추천도서 목록에는 인공지능 도서가 줄기차게 올라오게 만들었던 주인공 입니다.

2017년 10월 18일자로 구글 딥마인드 Deep mind 에서 새로운 버전의 알파고를 네이처에 발표하였습니다. 알파고 제로 AlphaGo Zero 가 바로 그 주인공 입니다. 외신들과 국내 주요 언론사들이 알파고 제로에 대해서 기고를 하고 있는데, 기존의 알파고와는 어떻게 다른 것일까요? 오늘 포스팅은 알파고 제로의 의미에 대해서 저 나름대로의 생각을 정리한 글입니다.

알파고 제로, 알파고 리를 100 : 0으로 이기다.

알파고 버전별 비교, 출처 : 위키피디아

이세돌 프로와의 대국에서 승리하여 우리나라를 떠들썩하게 했던 알파고의 버전은 바로 알파고 리 AlphaGo Lee입니다. 알파고 제로는 알파고 리에게 100 : 0으로 승리하여 그 기량을 증명하였습니다. 그 뒤 버전인 알파고 마스터 Alphago Master 도 있는데, 여기에 대해서는 89 : 11로 승리하였다고 합니다. 아주 강력한 인공지능인건 알겠는데, 사실 이보다 더 중요한 것은 따로 있습니다.

지도학습 Supervised learning 과 강화학습 reinforcement learning

이전버전의 알파고들은 '지도학습'과 '강화학습'을 통해서 바둑 실력을 키웠습니다. 지도학습이라는 것은, 인간 프로 바둑기사들의 기보를 바탕으로 하는 학습입니다. 이때 알파고는 인간을 '흉내'내는 수준에 불과합니다. 다르게 표현하자면, 어떤 상황에 처할 때 인간의 기보를 바탕으로 "인간이라면 이 상황에서 어떻게 둘까?'"를 계산하여 가장 확률이 높다고 생각되는 지점에 다음 수를 결정하게 되는 것입니다.

한편 강화학습은 게임을 시뮬레이션 하여 위에서 설명한 지도학습으로 둔 수에 가중치를 부여하는 것입니다. 어떤 수를 두었는데, 그 수가 승리로 이어질 경우, 신경망 네트워크는 그 수를 강화하게 됩니다. 그리고 많은 시뮬레이션을 통해 이러한 데이터가 누적이되면, 경험적 확률에의해 "지금 어떤 수를 두면 이길 가능성이 높은가?"에 대해 계산을 할 수 있게 되는 것입니다.

알파고 제로는 강화로만 학습한다.

알파고 제로가 인공지능 기술에서 중요한 이정표가 되었다고 발표하는 외신들의 주장은 다름아닌, 지도학습이 없는 강화학습만을 통한 발전입니다. 알파고 제로는 기본적인 바둑의 규칙만을 입력한 상태에서 시작하게 됩니다. 네이처 Nature 에 발표된 Abstract를 참고하면 좀 더 이해하기 쉽습니다.

네이처에 발표된 딥마인드의 알파고 제론 논문

빨간줄 부분만 대충 해석을 해보겠습니다.

"강화학습에만 기반을 가지고, 인간의 데이터나 가이드가 필요없는 새로운 알고리즘을 소개한다. 완전 백지의 상태에서, 우리의 새로운 프로그램인 알파고 제로는 이전의 버전의 알파고를 100 : 0 으로 압도하였다."

여기에서 주목할 점은 지도학습, 즉 '인간의 데이터'가 필요없다는 것입니다.

지도학습 supervised learning 이 필요없다는 것은?

지도학습이 필요없다는 말은, 앞으로 인공지능이 인간이 개척하지 못한 분야를 홀로 개척할 수 있다는 점을 시사한다는 점에서 중요한 이정표라고 할 수 있습니다. 이전버전의 알파고가 지도학습을 하기 위해서는 방대한 양의 인간프로가 두었던 기보가 필요했습니다. 따라서 이미 인간이 전문성을 가지고 있는 분야를 자동화 시키거나, 좀 더 잘하게 하는 역할에 국한되어 있습니다. 그러나 인공지능이 더 발전할 경우, 인간은 잘 모르는 미지의 부분을 인공지능이 혼자서 연구하고 전문가가 될 수 있는 가능성을 시사한 것이라고 할 수 있습니다. 학습할 데이터가 없는 상태에서도 말이죠. 물론, 현재는 바둑과 같이 룰이 명확하게 정해져 있는 분야에만 사용할 수 있겠죠.

딥 마인드는 앞으로 이런기술이 단백질 3차원 구조나 신약개발과 같은 분야에 사용할 수 있을 것으로 기대된다고 밝혔습니다.

개인적인 생각

어제 알파고 제로에 대해서 공부하다가 문득 이런생각이 들었습니다.

'마치 사람이 수학공부하는 것과 똑같은데?'

이전부터 선행학습은 많은 논란이 되어왔습니다. 저는 선행학습이 반드시 나쁘다고 생각하지는 않습니다. 그러나 선행학습은 구경학습이라는 말이 있을 정도로 그 효과에 대해 논란이 많습니다. 저는 그 이유를 알파고의 학습방법에서 어느정도 찾을 수 있다고 봅니다.

우리가 선행학습을 통해서 수학을 배울 때, 정규 수준 이상의 내용을 배우게 되므로, 선생님은 어떻게 푸는지 한번 보는 과정을 거치게 됩니다. 이른바 지도학습 supervised learning 이 필요한 것입니다.

그럼, 한번 보면 내 것이 될까요? 당연히 내 것이 되지 않습니다. 그 다음에 혼자만의 시간을 가지면서 자기학습을 해야 내 것이 되는 것이죠. 즉, 강화학습 reinforcement learning 을 통해 신경망을 강화시켜주어야 온전히 내 것이 됩니다. 온전히 내 것이 되었다고 생각해도 시간이 지나면 까먹는 일이 비일비재 합니다.

알파고 제로가 강화학습 만으로 이전 버전의 알파고들을 압도하였지만, 그렇다고 지도학습이 필요없다고는 생각하지 않습니다. 아마 하드웨어의 차이와, 강화학습의 알고리즘의 차이들이 복합적으로 작용하여 이런 결과들을 만들어 낸 것이라고 생각합니다.

중요한 것은 강화학습은 신경망 발달과정에서 빠질 수 없는 필수불가결한 존재라는 것입니다. 알파고 리가 만약 강화학습을 거치지 않고 이세돌 프로에게 도전했다면 어찌 되었을까요? 개인적인 생각으로는 필패했을 것이라고 생각합니다. 알파고 리가 흡수한 많은 기보들은 승패를 가리지 않고, 오로지 인간이 이런 상황에서 어떻게 다음수를 두는가에 대한 대답만 얻을 수 있습니다. 자기성찰(강화학습)을 통해서 그 길이 옳은 것임을 입증해야하는 과정이 빠져있는 상태인 것이죠.

어찌보면 당연한 진리를 새로운 시대가 열리는 지금 인공지능을 통해서 배우고 있다는 느낌이 듭니다. 어떤 것을 학습할 때, 새로운 지식을 접하는 것은 시간이 얼마 걸리지 않습니다. 그러나 그것을 자기강화하는데는 수많은 시간이 필요합니다. 그것이 학창시절의 수학에만 국한 되는 것은 아닙니다. 저는 최근에 양치기에만 주력하는 저의 독서습관에 대해서 반성을 하는 계기가 되었습니다. 아무리 많은 책을 읽어도, 그것을 통해 새로운 생각을 해보지 않으면, 무슨 소용이 있을까요? 그 책은 과연 진리만을 담고 있을까요?

새로운 시대를 열어가는 알파고 제로가 우리에게 주는 메세지는 '자기강화'입니다. 이 글을 읽는 여러분도 지금부터 여러분의 신경망을 강화해보는 것은 어떨까요? 그것이 게임이든, 학습이든 말입니다.