처음에, 알파고제로의 학습은 인간 기사들의 학습과 비슷했다. 즉, 초보들이 흔히 그러는 것처럼 상대방의 돌을 잡으려고 무리수를 두는 수준에서 시작했다. 그러나 회를 거듭할수록 실력이 눈부시게 향상되어, 3일이 지나자 인간 고수들이 사용하는 복잡한 전술을 마스터했다. "당신은 알파고가 수천 년 동안 축적된 인간의 지식을 재발견하는 장면을 목격할 것이다"라고 하사비스는 말했다. 40일이 지나자, 알파고제로는 인간들이 모르는 '신의 한수'들을 스스로 개발했다.
"순전히 강화학습만 사용하는 접근방법은 지금껏 AI에서 고전을 면치 못했었다. 왜냐하면 그게 늘 일관된 진보를 거듭하는 건 아니기 때문이다. 로봇들은 종종 선조들을 제압하지만, 정작 자신의 초기버전을 물리지는 방법을 까먹곤 한다"라고 알파고 개발을 줄곧 지휘해 온 딥마인드의 과학자 데이비드 실버는 기자회견에서 말했다. "그러나 알파고제로는 완전히 달라졌다. 그것은 최초의 '안정적이고 확고한 강화학습 프로그램'으로, 완전한 제로베이스에서 출발하여 스스로 학습할 수 있다"라고 그는 덧붙였다.
알파고제로의 선조들은 두 개의 독립적인 신경망을 사용했는데, 하나는 '가능한 최고의 수'들을 예측하는 것이고, 다른 하나는 예측된 수들 중에서 '승산이 가장 높은 것'을 평가하는 것이다. 선조들은 후자(後者)를 위해서 롤아웃(roll out)을 사용했는데, 롤아웃이란 '가능한 결과를 테스트하기 위해, 여러 가지 착점(着點)들을 신속하고 무작위적으로 시도해 보는 것'을 말한다. 그러나 알파고제로는 단 하나의 신경망만을 사용한다. 그리하여 A와 B의 입장에서 가능한 결과들을 탐구하는 대신, 네트워크에게 그냥 '누가 이길 것 같아?'라고 묻기만 한다. "그건 마치 100명의 하수(下手)들이 벌이는 졸전에 의존하는 대신, 한 명의 고수에게 결과 예측을 의뢰하는 것이나 마찬가지다. 우리는 어중이떠중이들이 아닌, 한 명의 강력한 고수의 예측에 의존하는 쪽을 택했다"라고 실버는 말했다.
이상과 같은 기능들을 하나의 신경망으로 통합하면, 훨씬 더 강력하고 효율적인 알고리즘이 탄생한다. 하지만 그러려면 아직도 엄청난 양의 컴퓨터 파워가 필요하다. 예컨대 텐서 프로세싱 유닛(TPU: tensor processing unit)이라는 특화된 칩이 네 개 필요하며, 하사비스에 따르면 하드웨어 가격은 2,500만 달러로 추정된다고 한다. 그러나 알파고제로의 선조들은 그보다 열 배나 많은 자원이 필요했다. 또한 선조들은 몇 개월 이상 훈련을 받아야했지만, 알파고제로는 단 며칠 동안 자체적인 훈련과정만 소화하면 된다. "알파고제로가 시사 하는 것은 '계산이나 가용 데이터보다 알고리즘이 더 중요하다'는 것이다"라고 실버는 말했다.
바둑판 밖으로 진출
하사비스는 "딥마인드의 여러 연구자들은 이미 알파고를 벗어나, 비슷한 기법을 현실적인 응용프로그램에 적용하는 단계에 이르렀다"라고 말했다. 그중에서 유망한 분야를 하나 꼽는다면 '단백질 접힘 메커니즘을 이해하는 것'인데, 이는 신약개발의 필수 도구라고 할 수 있다.
단백질 접힘의 사례를 만드는 데는 몇 년 간의 고생스러운 결정학(crystallography) 과정이 수반되므로, 당장 보고 배울 만한 데이터가 별로 없다. 그리고 무지막지한 탐색을 통해 아미노산 염기서열로부터 구조를 예측하려면, 따져봐야 할 '가능한 해법들'이 너무 많다. 그러나 이러한 문제점들은 바둑과 매우 흡사하다. 즉, 단백질 접힘과 바둑은 '잘 알려진 규칙'과 '잘 기술된 목표'라는 특징을 공유한다. 따라서 장기적인 관점에서 볼 때, 알파고제로의 알고리즘은 양자화학, 신소재 설계, 로보틱스 분야의 비슷한 과제에 적용될 수 있을 것으로 보인다.
실버도 "알파고제로의 접근방법을 현실세계의 과제에 좀 더 일반적으로 적용하려면, AI가 소량의 데이터와 경험으로부터 학습하는 능력을 갖춰야 한다"는 점을 인정한다. 그리고 또 한 가지 필수적인 단계는 'AI로 하여금 게임의 규칙을 스스로 학습하게 하는 것'이다. 2015년 또 하나의 딥마인드 로봇이 아케이드 게임에서 그랬던 것처럼 말이다. 하사비스도 알파고제로의 궁극적인 목표가 이것(게임의 규칙까지도 스스로 학습하기)임을 수긍한다. "우리는 알파고가 그것을 해낼 수 있다고 확신한다. 그건 학습시간을 연장하는 것에 불과하기 때문이다."라고 그는 말했다. 출처: Nature
알파고는 지금까지 많은 세대를 거쳤다. 우리가 맨 처음 논문에서 발표한 1세대 알파고는 인간 바둑 고수를 최초로 물리칠 수 있었다. 마침내 우리는 알파고의 최종 버전인 알파고제로를 개발했다. 알파고제로는 아무런 사전지식이 없는 상태에서 학습한다. 즉, 기본원칙만 알고 있는 상태에서, 인간의 데이터를 전혀 사용하지 않고서도 전반적으로 최고의 성과를 거뒀다.
알파고제로의 가장 중요한 아이디어는 '완전히 빈 서판(tabula rasa)'에서 배우는 것인데, 이는 완벽한 백지상태에서 출발하여 인간의 지식, 인간의 데이터, 인간의 시범, 인간의 간섭이 전혀 없이 오로지 자습을 통해 스스로 이해한다는 것을 의미한다. 알파고제로는 달랑 기본규칙만을 기초로 하여 바둑 두는 방법을 터득한다. 따라서 빈서판 학습은, 딥마인드가 품고 있는 목표와 야망을 달성하는 데 굉장히 중요하다. 왜냐하면, 빈서판 학습을 달성할 수 있다면, 당신은 진정한 에이전트를 하나 보유하는 것이 되기 때문이다. 그 에이전트는 바둑에서 출발하여 모든 영역으로 이식될 수 있다. 당신은 당신이 종사하는 분야의 골치 아픈 문제에서 해방되어, 어디에나 적용되는 범용 알고리즘을 만난다.
우리가 생각하는 알파고제로의 아이디어는 밖으로 뛰쳐나가 인간을 물리치는 게 아니라, 하나의 프로그램으로 하여금 '과학을 한다는 게 뭔지', '지식이라는 게 뭔지'를 스스로 터득하게 하는 것이다. 우리가 알기 시작한 것은, 알파고제로가 인간들이 바둑을 둘 때 반복하는 경향이 있는 공통 패턴을 재발견할 뿐만 아니라, 그것을 배우고 발견한 다음 궁극적으로 폐기하고 자신의 변칙을 선호한다는 것이다. 그가 구사하는 변칙은 인간이 당장 알지도 못하고 해보지도 않은 것이다.
알파고제로는 지난 수천 년 동안 인간이 축적한 바둑의 지식을 단기간에 모두 이해한 다음, 그것을 분석하고 바라봄으로써 많은 지식을 스스로 발견하고, 때로는 그 이상의 것을 선택함으로서 인간이 전혀 발견하지 못한 뭔가를 이뤘다. 그 짧은 시간 동안에 말이다. 또한 여러 가지 면에서 창의적이고 신기한 지식을 개발했다. 우리 모두는 알파고제로가 어디까지 왔는지를 보고 흥분해 있다. 그러나 가장 흥분되는 것은 '그가 현실세계에서 어디까지 나아갈 수 있는가'라는 점이다. 우리는 이 프로그램에서 목격한 팩트를 통해, 복잡하고 도전적인 영역에서 매우 높은 수준의 성과를 거둘 수 있다. 그리고 인류를 위해 가장 도전적이고 임팩트가 강한 과제와 씨름할 수 있다.
생물학연구정보센터(BRIC)에 등재된 양병찬 번역가의 글을 다시 정리해 옮겨 싣는다. 양병찬 약사/과학 전문 번역가는 서울대학교 경영학과와 같은 대학원을 졸업한 후 은행, 증권사, 대기업 기획조정실 등에서 일하다가, 진로를 바꿔 중앙대학교 약학을 공부했다. 현재 약국을 운영하며 의학, 약학, 생명과학 분야 등 과학 번역가로 활발하게 활동하고 있다. 또한 매주 포스텍(POSTECH) 생물학연구정보센터(BRIC)에 네이처(Nature)와 사이언스(Science)에 실리는 특집기사 중 엄선해 번역 소개한다. 최근 번역 출간한 책 '내 속엔 미생물이 너무도 많아'(2017.08.09), '핀치의 부리'(2017.03.08.), '자연의 발명' (2016.7.11.)을 비롯해 ‘나만의 유전자’, ‘영화는 우리를 어떻게 속이나’, ‘매혹하는 식물의 뇌’, ‘곤충 연대기’, ‘가장 섹시한 동물이 살아 남는다’, '센스 앤 넌센스', ‘비처방약품치료학’, ‘커뮤너티파마시’, ‘리더에게 결정은 운명이다’, ‘잇 앤 런’, ‘아트 오브 메이킹 머니’ 등 다양한 분야의 서적들을 번역 출간했다.
출처 )
http://www.itnews.or.kr/?p=24013
알파고 제로 기보 유튜브 방송
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.