알파고제로, “인간 기보 필요 없다”…독학으로 입신 경지에 올라

은빛 · 2019.10.12 11:07:49

인공지능 프로그램 알파고제로(AlphaGo Zero)가, 아무런 인간의 입력(input) 없이도 며칠 만에 스스로 깨치는 수준에 이르렀다. 그리하여 인간 기사들이 지난 수천 년간 듣도 보도 못한 '신의 한 수'를 마구마구 구사하고 있다.

구글의 자회사 딥마인드(DeepMind)에서 개발한 인공지능 프로그램 알파고 제로(AlphaGo Zero)가 전략게임인 바둑에서 초인(招人)의 경지에 도달했다. 즉, 인간의 수(手)를 전혀 참고하지 않고서도 스스로 학습할 수 있게 된 것이다.

딥마인드의 CEO인 데미스 하사비스는 한 기자회견에서 "인간이 정보를 입력해주지 않아도 스스로 배우는 능력은, '모든 과제를 해결하는 범용 AI를 창조한다'는 꿈을 지향하는 결정적 단계로 간주된다. 그리하여 이 능력은 가까운 시일 내에, 프로그램으로 하여금 단백질 접힘(protein folding)이나 신소재 연구(materials research)와 같은 과학적 도전들을 도맡게 해줄 수 있을 것이다"며, "우리는 지금 흥분하고 있다. 왜냐하면 알파고 제로가 몇 가지 실질적인 문제에서 실질적인 진보를 이룰 수 있을 정도로 성장했다고 생각하기 때문이다."고 말했다.

딥마인드가 개발한 종래의 컴퓨터 기사(棋士)들은 처음부터 바둑을 둔 게 아니라, 전문가들이 둔 10만 개의 기보(棋譜)를 이용하여 사전훈련을 받으면서 시작했다. 그러나 최근 개발된 알파고제로는 아무런 사전지식 없이 무작위 수(random moves)에서 시작하여, 스스로 바둑을 둠으로써 학습한다. 알파고제로는 40일간의 훈련과 3천만 번의 '홀로 바둑'을 거친 후, 기존의 바둑 챔피언 알파고마스터(AlphaGo Master)를 물리칠 수 있었다. 이 결과는 10월 18일 논평기사와 함께 <Nature>에 실렸다.

앨런 인공지능연구소의 CEO인 오렌 에치오니는 "그런 기법을 강화학습(reinforcement learning)이라고 하는데, 매우 자원 집약적(resource-intensive)인 데다 제대로 작동하기가 여간 어려운 게 아니다"라고 말했다. 이어 "컴퓨터의 힘과 훈련시간을 절약하면서도 기존의 최강자를 능가하는 알고리즘을 구축했다는 것은 기적에 가깝다"라고 그는 덧붙였다.

viewimage.php?id=39b5d535ecdc3fb362bec4bc02c8&no=24b0d769e1d32ca73ded84fa11d028310ef2ab22591d9bdbf8feafbf5a5ca2ef96bd741c576fa81275159d21ef1841f86a7591fc8f4a845667886bef644eb0742f395d81eff57cde12

전략의 수프레모(supremo)

고대 중국의 게임인 바둑은 흑돌과 백돌을 바둑판 위에 놓음으로써 영토를 지배하는 시합이다. 선조들과 마찬가지로, 알파고제로는 심층신경망(deep neural network)을 사용하여 바둑판에서 추상적인 개념을 학습한다. (심층신경망이란 뇌의 구조에서 영감을 받은 AI를 뜻한다.) 사람에게서 '바둑의 규칙'만 달랑 전해들은 다음 시행착오를 거듭하며 학습하고, 게임이 끝날 때마다 자체적인 실력향상을 위해 방금 전 뒀던 묘수(妙手)들에 대한 정보를 피드백한다.

처음에, 알파고제로의 학습은 인간 기사들의 학습과 비슷했다. 즉, 초보들이 흔히 그러는 것처럼 상대방의 돌을 잡으려고 무리수를 두는 수준에서 시작했다. 그러나 회를 거듭할수록 실력이 눈부시게 향상되어, 3일이 지나자 인간 고수들이 사용하는 복잡한 전술을 마스터했다. "당신은 알파고가 수천 년 동안 축적된 인간의 지식을 재발견하는 장면을 목격할 것이다"라고 하사비스는 말했다. 40일이 지나자, 알파고제로는 인간들이 모르는 '신의 한수'들을 스스로 개발했다.

"순전히 강화학습만 사용하는 접근방법은 지금껏 AI에서 고전을 면치 못했었다. 왜냐하면 그게 늘 일관된 진보를 거듭하는 건 아니기 때문이다. 로봇들은 종종 선조들을 제압하지만, 정작 자신의 초기버전을 물리지는 방법을 까먹곤 한다"라고 알파고 개발을 줄곧 지휘해 온 딥마인드의 과학자 데이비드 실버는 기자회견에서 말했다. "그러나 알파고제로는 완전히 달라졌다. 그것은 최초의 '안정적이고 확고한 강화학습 프로그램'으로, 완전한 제로베이스에서 출발하여 스스로 학습할 수 있다"라고 그는 덧붙였다.

알파고제로의 선조들은 두 개의 독립적인 신경망을 사용했는데, 하나는 '가능한 최고의 수'들을 예측하는 것이고, 다른 하나는 예측된 수들 중에서 '승산이 가장 높은 것'을 평가하는 것이다. 선조들은 후자(後者)를 위해서 롤아웃(roll out)을 사용했는데, 롤아웃이란 '가능한 결과를 테스트하기 위해, 여러 가지 착점(着點)들을 신속하고 무작위적으로 시도해 보는 것'을 말한다. 그러나 알파고제로는 단 하나의 신경망만을 사용한다. 그리하여 A와 B의 입장에서 가능한 결과들을 탐구하는 대신, 네트워크에게 그냥 '누가 이길 것 같아?'라고 묻기만 한다. "그건 마치 100명의 하수(下手)들이 벌이는 졸전에 의존하는 대신, 한 명의 고수에게 결과 예측을 의뢰하는 것이나 마찬가지다. 우리는 어중이떠중이들이 아닌, 한 명의 강력한 고수의 예측에 의존하는 쪽을 택했다"라고 실버는 말했다.

이상과 같은 기능들을 하나의 신경망으로 통합하면, 훨씬 더 강력하고 효율적인 알고리즘이 탄생한다. 하지만 그러려면 아직도 엄청난 양의 컴퓨터 파워가 필요하다. 예컨대 텐서 프로세싱 유닛(TPU: tensor processing unit)이라는 특화된 칩이 네 개 필요하며, 하사비스에 따르면 하드웨어 가격은 2,500만 달러로 추정된다고 한다. 그러나 알파고제로의 선조들은 그보다 열 배나 많은 자원이 필요했다. 또한 선조들은 몇 개월 이상 훈련을 받아야했지만, 알파고제로는 단 며칠 동안 자체적인 훈련과정만 소화하면 된다. "알파고제로가 시사 하는 것은 '계산이나 가용 데이터보다 알고리즘이 더 중요하다'는 것이다"라고 실버는 말했다.

EloRatings.width-1500

바둑판 밖으로 진출
하사비스는 "딥마인드의 여러 연구자들은 이미 알파고를 벗어나, 비슷한 기법을 현실적인 응용프로그램에 적용하는 단계에 이르렀다"라고 말했다. 그중에서 유망한 분야를 하나 꼽는다면 '단백질 접힘 메커니즘을 이해하는 것'인데, 이는 신약개발의 필수 도구라고 할 수 있다.

단백질 접힘의 사례를 만드는 데는 몇 년 간의 고생스러운 결정학(crystallography) 과정이 수반되므로, 당장 보고 배울 만한 데이터가 별로 없다. 그리고 무지막지한 탐색을 통해 아미노산 염기서열로부터 구조를 예측하려면, 따져봐야 할 '가능한 해법들'이 너무 많다. 그러나 이러한 문제점들은 바둑과 매우 흡사하다. 즉, 단백질 접힘과 바둑은 '잘 알려진 규칙'과 '잘 기술된 목표'라는 특징을 공유한다. 따라서 장기적인 관점에서 볼 때, 알파고제로의 알고리즘은 양자화학, 신소재 설계, 로보틱스 분야의 비슷한 과제에 적용될 수 있을 것으로 보인다.

실버도 "알파고제로의 접근방법을 현실세계의 과제에 좀 더 일반적으로 적용하려면, AI가 소량의 데이터와 경험으로부터 학습하는 능력을 갖춰야 한다"는 점을 인정한다. 그리고 또 한 가지 필수적인 단계는 'AI로 하여금 게임의 규칙을 스스로 학습하게 하는 것'이다. 2015년 또 하나의 딥마인드 로봇이 아케이드 게임에서 그랬던 것처럼 말이다. 하사비스도 알파고제로의 궁극적인 목표가 이것(게임의 규칙까지도 스스로 학습하기)임을 수긍한다. "우리는 알파고가 그것을 해낼 수 있다고 확신한다. 그건 학습시간을 연장하는 것에 불과하기 때문이다."라고 그는 말했다. 출처: Nature

https://youtu.be/WXHFqTvfFSw

알파고는 지금까지 많은 세대를 거쳤다. 우리가 맨 처음 논문에서 발표한 1세대 알파고는 인간 바둑 고수를 최초로 물리칠 수 있었다. 마침내 우리는 알파고의 최종 버전인 알파고제로를 개발했다. 알파고제로는 아무런 사전지식이 없는 상태에서 학습한다. 즉, 기본원칙만 알고 있는 상태에서, 인간의 데이터를 전혀 사용하지 않고서도 전반적으로 최고의 성과를 거뒀다.

알파고제로의 가장 중요한 아이디어는 '완전히 빈 서판(tabula rasa)'에서 배우는 것인데, 이는 완벽한 백지상태에서 출발하여 인간의 지식, 인간의 데이터, 인간의 시범, 인간의 간섭이 전혀 없이 오로지 자습을 통해 스스로 이해한다는 것을 의미한다. 알파고제로는 달랑 기본규칙만을 기초로 하여 바둑 두는 방법을 터득한다. 따라서 빈서판 학습은, 딥마인드가 품고 있는 목표와 야망을 달성하는 데 굉장히 중요하다. 왜냐하면, 빈서판 학습을 달성할 수 있다면, 당신은 진정한 에이전트를 하나 보유하는 것이 되기 때문이다. 그 에이전트는 바둑에서 출발하여 모든 영역으로 이식될 수 있다. 당신은 당신이 종사하는 분야의 골치 아픈 문제에서 해방되어, 어디에나 적용되는 범용 알고리즘을 만난다.

우리가 생각하는 알파고제로의 아이디어는 밖으로 뛰쳐나가 인간을 물리치는 게 아니라, 하나의 프로그램으로 하여금 '과학을 한다는 게 뭔지', '지식이라는 게 뭔지'를 스스로 터득하게 하는 것이다. 우리가 알기 시작한 것은, 알파고제로가 인간들이 바둑을 둘 때 반복하는 경향이 있는 공통 패턴을 재발견할 뿐만 아니라, 그것을 배우고 발견한 다음 궁극적으로 폐기하고 자신의 변칙을 선호한다는 것이다. 그가 구사하는 변칙은 인간이 당장 알지도 못하고 해보지도 않은 것이다.

알파고제로는 지난 수천 년 동안 인간이 축적한 바둑의 지식을 단기간에 모두 이해한 다음, 그것을 분석하고 바라봄으로써 많은 지식을 스스로 발견하고, 때로는 그 이상의 것을 선택함으로서 인간이 전혀 발견하지 못한 뭔가를 이뤘다. 그 짧은 시간 동안에 말이다. 또한 여러 가지 면에서 창의적이고 신기한 지식을 개발했다. 우리 모두는 알파고제로가 어디까지 왔는지를 보고 흥분해 있다. 그러나 가장 흥분되는 것은 '그가 현실세계에서 어디까지 나아갈 수 있는가'라는 점이다. 우리는 이 프로그램에서 목격한 팩트를 통해, 복잡하고 도전적인 영역에서 매우 높은 수준의 성과를 거둘 수 있다. 그리고 인류를 위해 가장 도전적이고 임팩트가 강한 과제와 씨름할 수 있다.

생물학연구정보센터(BRIC)에 등재된 양병찬 번역가의 글을 다시 정리해 옮겨 싣는다. 양병찬 약사/과학 전문 번역가는 서울대학교 경영학과와 같은 대학원을 졸업한 후 은행, 증권사, 대기업 기획조정실 등에서 일하다가, 진로를 바꿔 중앙대학교 약학을 공부했다. 현재 약국을 운영하며 의학, 약학, 생명과학 분야 등 과학 번역가로 활발하게 활동하고 있다. 또한 매주 포스텍(POSTECH) 생물학연구정보센터(BRIC)에 네이처(Nature)와 사이언스(Science)에 실리는 특집기사 중 엄선해 번역 소개한다. 최근 번역 출간한 책 '내 속엔 미생물이 너무도 많아'(2017.08.09), '핀치의 부리'(2017.03.08.), '자연의 발명' (2016.7.11.)을 비롯해 ‘나만의 유전자’, ‘영화는 우리를 어떻게 속이나’, ‘매혹하는 식물의 뇌’, ‘곤충 연대기’, ‘가장 섹시한 동물이 살아 남는다’, '센스 앤 넌센스', ‘비처방약품치료학’, ‘커뮤너티파마시’, ‘리더에게 결정은 운명이다’, ‘잇 앤 런’, ‘아트 오브 메이킹 머니’ 등 다양한 분야의 서적들을 번역 출간했다.

출처 )

http://www.itnews.or.kr/?p=24013

https://youtu.be/ZjioeYF4fUo

알파고 제로 기보 유튜브 방송

번호	말머리	제목	글쓴이	작성일	조회	추천
2853	설문	연인과 헤어지고 뒤끝 작렬할 것 같은 스타는?	운영자	24/04/22	-	-
443427	일반	머스크 grok 1.5 쪽팔려서 공개도 못하고	연맛	03.18	162	0
443426	일반	이번주에도 공개 안하면 특갤 민심 잃을텐데... [15]	핵융합발전소	03.18	2042	31
443425	일반	카르다쇼프 척도 아직도 믿노 [2]	ㅇㅇ	03.18	217	0
443424	일반	미국시간으로 21일이면 [1]	특붕(211.43)	03.18	112	0
443423	일반	나중에 일론머스크=노숙자 자산 같아지는 거 아님? [6]	ㅇㅇ(110.46)	03.18	234	1
443422	일반	윈도우12도 엄청 기대되네 [1]	연맛	03.18	164	0
443421	일반	지미는 정체가뭐임?? [3]	ㅇㅇ	03.18	188	0
443420	일반	그록 성능보고 머스크쪽은 답없다고 개인적으로 판단내림 [1]	ㅇㅇ(180.230)	03.18	247	2
443419	일반	우주 어딘가엔 로봇들이 유기생명체를 부리는 곳도 있을까 [4]	Mechanic	03.18	122	0
443418	일반	이번주에도 안나오면 특갤 ㅈ되는거냐?? [5]	ㅇㅇ(14.53)	03.18	160	1
443417	일반	그래도 그록은 오픈소스네 머스크 칭찬함 [5]	핵융합발전소	03.18	268	4
443416	일반	그래서 4.5가 나온다는 거임 5.0이 나온다는 거임? [2]	ㅇㅇ(125.137)	03.18	165	0
443415	일반	아래 그록1 공개에 따른 댓글들 번역 [2]	ㅇㅇ(218.147)	03.18	252	4
443414	일반	시뮬레이션 우주론.fullgeul	ㅇㅇ(110.46)	03.18	150	0
443413	일반	프로그래밍된 ai사랑은 가치가 있을까? [5]	ㅇㅇ(121.134)	03.18	187	1
443411	일반	과도기 시절 휴머노이드와 인간의 구분법 [6]	ㅇㅇ(110.46)	03.18	192	0
443410	일반	특이점올때까지 [1]	스티브(61.105)	03.18	100	0
443409	정보	알트만은 gpt5의 성능이 스타트업들 생각보다 빠르다 자신 중 [2]	초월체1호	03.18	246	3
443408	일반	클로드 pdf 파일 업로드가 안되요 ㅠ [1]	시린이(118.42)	03.18	128	0
443407	일반	일리야 진짜 이직한건가 [2]	ㅇㅇ(59.9)	03.18	206	0
443406	일반	그록 성능 ㄷㄷㄷ [2]	ㅇㅇ(183.98)	03.18	448	2
443405	일반	하드웨어나 에너지 혁신이 일어나야 agi를 모두가 쓸 수 있게 됨	ㅇㅇ(166.104)	03.18	81	0
443404	일반	ai가 아무리 내면이 없는 기계에 불과하더라도 [4]	ㅇㅇ(121.134)	03.18	210	3
443403	일반	작년말에 알트만,그렉과 일리야일당의 싸움은 asi문제라고봄 [3]	ㅇㅇ	03.18	195	1
443402	일반	gpt 초기 알파테스트 어쩌구 뭐냐? [2]	oo(125.135)	03.18	126	0
443401	일반	누가 2045년에 깨워줬으면 [2]	ㅇㅇ	03.18	109	0
443400	역노화	10년안에 회춘약 나온다했쥬? [40]	ㅇㅇ(211.176)	03.18	5545	57
443398	일반	본인 IT계열 현직인데 agi곧 온다 [12]	ㅇㅇ(59.31)	03.18	643	28
443397	일반	이번달 내에 gpt5 확정임 [1]	noosphere	03.18	213	1
443396	일반	달리도 신버전 나왔으면 좋겠다	ㅇㅇ	03.18	41	0
443395	일반	클로드가 판단해준 iq [4]	ㅇㅇ(110.46)	03.18	281	2
443394	일반	특갤 종종 들어온 이유가 기술발에 관한 심화된 얘기 들어보려 들어왔던건데 [8]	ㅇㅇ(168.188)	03.18	186	3
443393	일반	Ai 여친 곧 가능하겠지 [1]	ㅇㅇ(1.224)	03.18	178	1
443391	일반	룬이 누규냐 [1]	ㅇㅇ(220.93)	03.18	70	0
443390	일반	알트만 gpt4.8 출시하면 어떻게되냐	ㅇㅇ	03.18	72	0
443388	일반	샘알트만 상남자 똥게이처럼 .5출시하지마라	ㅇㅇ(220.89)	03.18	127	1
443387	일반	샘알트만 : 깔아뭉게서 초전박살을 내주마	ㅇ0oO	03.18	179	1
443386	일반	내일 gpt4.5 나오는거 확정이네 ㅇㅇ [1]	갸릉디노	03.18	239	0
443385	일반	ai 여친 어떻게 생각함? [26]	ㅇㅇ(121.134)	03.18	287	1
443384	일반	아침9~10시에 산책한번하는게 진짜 좋은듯 [10]	ㅇㅇ(59.28)	03.18	288	0
443383	일반	GPT 4.5랑 5 같이 출시하는건가 [1]	ㅇㅇ	03.18	137	0
443382	정보	"귀찮게 스마트폰을 왜 써"…5년 뒤 세상 완전히 바뀐다 [5]	Zoz	03.18	487	4
443381	일반	일단 gpt 곧 나오는건 확정인데	ㅇㅇ	03.18	112	0
443380	일반	너네 일상생활에서 체감한적 언제냐 [9]	ㅇㅇ(220.65)	03.18	513	0
443379	일반	그래서 GPT5 언제 나오는데 [2]	ㅇㅇ	03.18	138	0
443378	일반	주딱아!!ㅋ 일론머스크 << 단어 차단하자;; 씹론은 볼때마다 토나옴 [1]	조조조(221.141)	03.18	124	0
443377	일반	머스크는 트위터 살돈으로 oai 엔트로픽 인수했으면 [6]	ㅇㅇ(175.209)	03.18	276	4
443376	일반	근데 그록1.5 나온다고 하지 않았나	ㅇㅇ(39.117)	03.18	79	0
443375	일반	클로드 , GPT4.5 지금 어떤거 구독하는게 좋음? [7]	ㅇㅇ(1.213)	03.18	242	0
443374	일반	최소한 특이점이 뭔지는 알고 말하라고!! [1]	라익	03.18	75	2

갤러리 검색

최근 방문

즐겨찾기

즐겨찾기 갤러리

특이점이 온다 갤러리
마이너

머리말∙꼬리말

머리말∙꼬리말

색상 설정

스포일러 경고 설정

제목에서 경고

본문에서 경고

마이너 갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

마이너 갤러리 소개

차단하기

[특이점이 온다 갤러리]

갤러리 본문 영역

[정보] 알파고제로, “인간 기보 필요 없다”…독학으로 입신 경지에 올라

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

실시간 베스트

뉴스

디시미디어

디시이슈

개념글[국내야구]

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘

지갑 연결