디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[🏆베스트] (딥마인드) 경험의 시대에 오신 것을 환영합니다

초존도초갤로그로 이동합니다. 2025.04.19 11:53:14
조회 5062 추천 26 댓글 16
														

경험의 시대에 오신 것을 환영합니다


데이비드 실버 (David Silver), 리처드 S. 서튼 (Richard S. Sutton)*



초록


우리는 인공지능 분야에서 전례 없는 수준의 능력을 약속하는 새로운 시대의 문턱에 서 있습니다. 차세대 에이전트는 주로 경험으로부터 학습하여 초인적인 능력을 습득할 것입니다. 이 글은 다가올 이 시대를 정의할 핵심 특징들을 탐구합니다.



인간 데이터의 시대


인공지능(AI)은 최근 몇 년간 방대한 양의 인간 생성 데이터를 학습하고 전문가의 인간 예시와 선호를 통해 미세 조정되면서 괄목할 만한 발전을 이루었습니다. 이러한 접근 방식은 광범위한 일반화 수준을 달성한 대규모 언어 모델(LLM)에서 잘 드러납니다. 단일 LLM은 이제 시 쓰기, 물리 문제 풀이부터 의료 문제 진단, 법률 문서 요약에 이르기까지 다양한 작업을 수행할 수 있습니다.


그러나 인간 모방은 많은 인간 능력을 유능한 수준까지 재현하기에 충분하지만, 이 접근 방식만으로는 여러 중요한 주제와 과제에서 초인적 지능을 달성하지 못했고, 아마 달성할 수도 없을 것입니다. 수학, 코딩, 과학과 같은 핵심 영역에서 인간 데이터로부터 추출된 지식은 빠르게 한계에 다다르고 있습니다. 강력한 에이전트의 성능을 실제로 향상시킬 수 있는 대다수의 고품질 데이터 소스는 이미 소진되었거나 곧 소진될 것입니다. 인간 데이터 기반의 지도 학습만으로 추동되는 발전 속도는 눈에 띄게 둔화하고 있으며, 이는 새로운 접근 방식의 필요성을 시사합니다. 더욱이, 새로운 정리, 기술 또는 과학적 돌파구와 같은 귀중한 새로운 통찰력은 현재 인간 이해의 경계를 넘어서 존재하며, 기존 인간 데이터로는 포착될 수 없습니다.



경험의 시대


상당한 추가 진전을 이루기 위해서는 새로운 데이터 소스가 필요합니다. 이 데이터는 에이전트가 더 강력해짐에 따라 지속적으로 개선되는 방식으로 생성되어야 합니다. 데이터를 합성적으로 생성하는 정적인 절차는 금방 뒤처질 것입니다. 이는 에이전트가 자신의 경험, 즉 에이전트가 환경과 상호작용하며 생성하는 데이터로부터 지속적으로 학습하도록 함으로써 달성될 수 있습니다. AI는 경험이 개선의 지배적인 매체가 되고 궁극적으로 오늘날 시스템에서 사용되는 인간 데이터의 규모를 압도하게 될 새로운 시대의 정점에 서 있습니다.


이러한 전환은 인간 중심 AI를 상징하는 LLM에서조차 이미 시작되었을 수 있습니다. 한 예로 수학 능력을 들 수 있습니다. AlphaProof [20]는 최근 국제수학올림피아드에서 메달을 획득한 최초의 프로그램이 되어, 인간 중심 접근 방식 [27, 19]의 성능을 능가했습니다. 처음에는 인간 수학자들이 수년에 걸쳐 생성한 약 10만 개의 형식적 증명에 노출되었지만, AlphaProof의 강화학습(RL) 알고리즘¹은 이후 형식적 증명 시스템과의 지속적인 상호작용을 통해 1억 개 이상의 증명을 생성했습니다. 이러한 상호작용적 경험에 대한 집중은 AlphaProof가 기존 형식 증명의 한계를 넘어 수학적 가능성을 탐색하여 새롭고 도전적인 문제에 대한 해결책을 발견할 수 있게 했습니다. 비형식 수학 분야에서도 전문가 생성 데이터를 자체 생성 데이터로 대체하여 성공을 거두었습니다. 예를 들어, DeepSeek의 최근 연구는 "강화학습의 힘과 아름다움을 강조합니다. 모델에게 문제 해결 방법을 명시적으로 가르치는 대신, 단순히 올바른 인센티브를 제공하면 자율적으로 고급 문제 해결 전략을 개발합니다." 🔟


우리의 주장은 경험적 학습의 잠재력이 완전히 활용되면 놀라운 새로운 능력이 발현될 것이라는 점입니다. 이 경험의 시대는 방대한 양의 경험적 데이터로부터 학습하는 것 외에도, 여러 추가적인 차원에서 인간 중심 AI 시스템의 한계를 돌파하는 에이전트와 환경으로 특징지어질 가능성이 높습니다.


*   에이전트는 짧은 상호작용 단편이 아닌, 경험의 스트림(streams of experience) 속에서 살아갈 것입니다.

*   에이전트의 행동과 관찰은 인간과의 대화만을 통하는 것이 아니라, 환경에 풍부하게 기반(richly grounded) 할 것입니다.

*   에이전트의 보상은 인간의 사전 판단(prejudgement)에서 오는 것이 아니라, 환경 경험에 기반할 것입니다.

*   에이전트는 단순히 인간 용어로 추론하는 것이 아니라, 경험에 대해 계획 및/또는 추론할 것입니다.


우리는 오늘날의 기술이 적절하게 선택된 알고리즘과 함께 이러한 돌파구를 달성하기에 충분히 강력한 기반을 이미 제공한다고 믿습니다. 더 나아가, AI 커뮤니티가 이 의제를 추구하는 것은 이러한 방향으로 새로운 혁신을 촉발하여 AI를 진정한 초인적 에이전트로 빠르게 발전시킬 것입니다.



스트림 (Streams)


경험적 에이전트는 평생에 걸쳐 학습을 계속할 수 있습니다. 인간 데이터 시대의 언어 기반 AI는 주로 짧은 상호작용 에피소드에 초점을 맞추었습니다. 예를 들어, 사용자가 질문하고 (아마도 몇 번의 사고 단계나 도구 사용 행동 후에) 에이전트가 응답하는 식입니다. 일반적으로 한 에피소드에서 다음 에피소드로 넘어가는 정보는 거의 없거나 전혀 없으므로 시간이 지남에 따른 적응이 불가능합니다. 더욱이 에이전트는 사용자의 질문에 직접 답하는 것과 같이 현재 에피소드 내의 결과만을 목표로 합니다. 반면, 인간(및 다른 동물들)은 수년 동안 계속되는 행동과 관찰의 지속적인 스트림 속에 존재합니다. 정보는 전체 스트림에 걸쳐 전달되며, 그들의 행동은 과거 경험으로부터 적응하여 스스로 교정하고 개선됩니다. 또한, 목표는 스트림의 먼 미래까지 뻗어 있는 행동과 관찰의 관점에서 명시될 수 있습니다. 예를 들어, 인간은 건강 개선, 언어 학습, 또는 과학적 돌파구 달성과 같은 장기적인 목표를 달성하기 위해 행동을 선택할 수 있습니다.


강력한 에이전트는 인간처럼 장기간에 걸쳐 진행되는 자신만의 경험 스트림을 가져야 합니다. 이를 통해 에이전트는 미래 목표를 달성하기 위한 행동을 취하고, 시간이 지남에 따라 새로운 행동 패턴에 지속적으로 적응할 수 있습니다. 예를 들어, 사용자의 웨어러블 기기에 연결된 건강 및 웰니스 에이전트는 수개월 동안 수면 패턴, 활동 수준, 식습관을 모니터링할 수 있습니다. 그런 다음 개인화된 권장 사항, 격려를 제공하고 장기적인 추세와 사용자의 특정 건강 목표에 따라 지침을 조정할 수 있습니다. 마찬가지로, 개인화된 교육 에이전트는 사용자의 학습 진도를 추적하고, 지식 격차를 식별하고, 학습 스타일에 적응하며, 수개월 또는 수년에 걸쳐 교수법을 조정할 수 있습니다. 더 나아가, 과학 에이전트는 신소재 발견이나 이산화탄소 감소와 같은 야심 찬 목표를 추구할 수 있습니다. 이러한 에이전트는 장기간에 걸쳐 실제 관찰을 분석하고, 시뮬레이션을 개발 및 실행하며, 실제 실험이나 개입을 제안할 수 있습니다.


각 경우에 에이전트는 명시된 목표에 대한 장기적인 성공을 극대화하기 위해 일련의 단계를 밟습니다. 개별 단계는 즉각적인 이점을 제공하지 않거나 단기적으로 해로울 수도 있지만, 그럼에도 불구하고 전체적으로 장기적인 성공에 기여할 수 있습니다. 이는 환경에 대한 행동의 미래 결과를 측정하거나 최적화할 능력 없이 요청에 즉각적인 응답을 제공하는 현재 AI 시스템과는 극명한 대조를 이룹니다.



행동과 관찰 (Actions and Observations)


경험의 시대 에이전트는 실제 세계에서 자율적으로 행동할 것입니다. 인간 데이터 시대의 LLM은 주로 사용자에게 텍스트를 출력하고 사용자로부터 텍스트를 입력받는 인간 특권적인 행동과 관찰에 초점을 맞추었습니다. 이는 동물이 운동 제어와 센서를 통해 환경과 상호작용하는 자연 지능과는 현저하게 다릅니다. 동물, 특히 인간은 다른 동물과 의사소통할 수 있지만, 이는 특권적인 채널이 아닌 다른 감각운동 제어와 동일한 인터페이스를 통해 발생합니다.


LLM이 예를 들어 API를 호출함으로써 디지털 세계에서 행동을 유발할 수도 있다는 것은 오랫동안 인식되어 왔습니다(예: [43] 참조). 초기에 이러한 능력은 에이전트의 경험보다는 인간의 도구 사용 예시에서 주로 비롯되었습니다. 그러나 코딩 및 도구 사용 능력은 에이전트가 실제로 코드를 실행하고 어떤 일이 발생하는지 관찰하는 실행 피드백 [17, 7, 12]을 통해 점점 더 구축되어 왔습니다. 최근에는 새로운 프로토타입 에이전트들이 인간이 컴퓨터를 작동하는 데 사용하는 것과 동일한 인터페이스를 사용하여 훨씬 더 일반적인 방식으로 컴퓨터와 상호작용하기 시작했습니다 [3, 15, 24]. 이러한 변화는 전적으로 인간 특권적인 의사소통에서 벗어나, 에이전트가 세상에서 독립적으로 행동할 수 있는 훨씬 더 자율적인 상호작용으로의 전환을 예고합니다. 이러한 에이전트는 능동적으로 세상을 탐색하고, 변화하는 환경에 적응하며, 인간에게는 결코 떠오르지 않을 수도 있는 전략을 발견할 수 있을 것입니다.


이러한 더 풍부한 상호작용은 디지털 세계를 자율적으로 이해하고 제어하는 수단을 제공할 것입니다. 에이전트는 사용자와의 소통 및 협업을 자연스럽게 촉진하는 사용자 인터페이스와 같은 '인간 친화적' 행동과 관찰을 사용할 수 있습니다. 에이전트는 또한 코드를 실행하고 API를 호출하는 '기계 친화적' 행동을 취하여 목표 달성을 위해 자율적으로 행동할 수 있습니다. 경험의 시대에는 에이전트가 디지털 인터페이스를 통해 실제 세계와도 상호작용할 것입니다. 예를 들어, 과학 에이전트는 환경 센서를 모니터링하고, 원격으로 망원경을 조작하거나, 실험실의 로봇 팔을 제어하여 자율적으로 실험을 수행할 수 있습니다.



보상 (Rewards)


경험적 에이전트가 단지 인간의 선호가 아닌 외부 사건과 신호로부터 학습할 수 있다면 어떨까요?


인간 중심 LLM은 일반적으로 인간의 사전 판단에 기반한 보상을 최적화합니다. 전문가는 에이전트의 행동을 관찰하고 그것이 좋은 행동인지 결정하거나 여러 대안 중에서 최상의 에이전트 행동을 선택합니다. 예를 들어, 전문가는 건강 에이전트의 조언, 교육 보조원의 가르침 또는 과학자 에이전트가 제안한 실험을 판단할 수 있습니다. 이러한 보상이나 선호가 행동의 결과 없이 인간에 의해 결정된다는 사실, 즉 환경에 대한 해당 행동의 영향을 측정하는 것이 아니라, 이는 보상이 세상의 현실에 직접적으로 기반(grounded)하지 않음을 의미합니다. 이러한 방식으로 인간의 사전 판단에 의존하는 것은 일반적으로 에이전트 성능에 뚫을 수 없는 천장을 만듭니다. 에이전트는 인간 평가자가 과소평가하는 더 나은 전략을 발견할 수 없습니다. 기존 인간 지식을 훨씬 뛰어넘는 새로운 아이디어를 발견하려면 대신 현실 기반 보상(grounded rewards), 즉 환경 자체에서 발생하는 신호를 사용해야 합니다. 예를 들어, 건강 보조원은 사용자의 안정 시 심박수, 수면 시간, 활동 수준과 같은 신호의 조합에 기반한 보상을 통해 사용자의 건강 목표를 현실에 기반하도록 할 수 있으며, 교육 보조원은 시험 결과를 사용하여 언어 학습에 대한 현실 기반 보상을 제공할 수 있습니다. 마찬가지로, 지구 온난화 감소를 목표로 하는 과학 에이전트는 이산화탄소 수준의 경험적 관찰에 기반한 보상을 사용할 수 있으며, 더 강한 재료 발견을 목표로 하는 에이전트는 인장 강도나 영률(Young's modulus)과 같은 재료 시뮬레이터의 측정치 조합에 기반한 보상을 사용할 수 있습니다.


현실 기반 보상은 에이전트 환경의 일부인 인간으로부터 발생할 수도 있습니다.² 예를 들어, 인간 사용자는 케이크가 맛있었는지, 운동 후 얼마나 피곤한지, 두통으로 인한 통증 수준을 보고하여 보조 에이전트가 더 나은 레시피를 제공하고, 피트니스 제안을 개선하거나, 권장 약물을 개선하도록 할 수 있습니다. 이러한 보상은 환경 내에서 에이전트 행동의 결과를 측정하며, 궁극적으로 제안된 케이크 레시피, 운동 프로그램 또는 치료 프로그램을 사전 판단하는 인간 전문가보다 더 나은 지원으로 이어져야 합니다.


인간 데이터가 아니라면 보상은 어디에서 오는가? 에이전트가 풍부한 행동 및 관찰 공간(위 참조)을 통해 세상과 연결되면 보상의 기초를 제공할 현실 기반 신호가 부족하지 않을 것입니다. 실제로 세상은 비용, 오류율, 배고픔, 생산성, 건강 지표, 기후 지표, 이익, 판매량, 시험 결과, 성공, 방문 횟수, 수확량, 주 식, 좋아요 수, 소득, 쾌락/고통, 경제 지표, 정확도, 전력, 거리, 속도, 효율성 또는 에너지 소비와 같은 양으로 가득 차 있습니다. 또한 특정 사건의 발생이나 관찰 및 행동의 원시 시퀀스에서 파생된 특징으로부터 발생하는 무수한 추가 신호가 있습니다.


원칙적으로 각각 하나의 현실 기반 신호를 보상으로 최적화하는 다양한 개별 에이전트를 만들 수 있습니다. 단일 보상 신호라도 매우 효과적으로 최적화되면 광범위하게 유능한 지능을 유도하기에 충분할 수 있다는 주장도 있습니다 [34].³ 이는 복잡한 환경에서 단순한 목표를 달성하는 데 종종 다양한 기술을 습득해야 하기 때문입니다.


그러나 단일 보상 신호 추구는 표면적으로는 임의의 사용자 희망 행동으로 안정적으로 조종될 수 있는 범용 AI의 요구 사항을 충족하지 못하는 것처럼 보입니다. 그렇다면 현실 기반의 비인간 보상 신호의 자율적 최적화는 현대 AI 시스템의 요구 사항과 상반되는 것일까요? 우리는 이것이 반드시 그런 것은 아니라고 주장하며, 이러한 요구 사항을 충족할 수 있는 한 가지 접근 방식을 간략하게 설명합니다. 다른 접근 방식도 가능할 수 있습니다.


아이디어는 사용자 안내 방식으로 현실 기반 신호에 기초하여 보상을 유연하게 조정하는 것입니다. 예를 들어, 보상 함수는 사용자와 환경 모두와의 에이전트 상호작용을 입력으로 받아 스칼라 보상을 출력하는 신경망으로 정의될 수 있습니다. 이를 통해 보상은 사용자의 목표에 따라 환경의 신호를 선택하거나 결합할 수 있습니다. 예를 들어, 사용자가 '체력 향상'과 같은 광범위한 목표를 지정하면 보상 함수는 사용자의 심박수, 수면 시간, 걸음 수의 함수를 반환할 수 있습니다. 또는 사용자가 '스페인어 학습 지원'이라는 목표를 지정하면 보상 함수는 사용자의 스페인어 시험 결과를 반환할 수 있습니다.


또한 사용자는 만족도와 같은 학습 과정 중 피드백을 제공할 수 있으며, 이는 보상 함수를 미세 조정하는 데 사용될 수 있습니다. 그러면 보상 함수는 시간이 지남에 따라 적응하여 신호를 선택하거나 결합하는 방식을 개선하고 불일치를 식별하고 수정할 수 있습니다. 이것은 또한 사용자 피드백을 최상위 목표로 최적화하고 환경의 현실 기반 신호를 하위 수준에서 최적화하는 이중 최적화 프로세스로 이해될 수 있습니다.⁴ 이러한 방식으로 소량의 인간 데이터가 대량의 자율 학습을 촉진할 수 있습니다.



계획 및 추론 (Planning and Reasoning)


경험의 시대는 에이전트가 계획하고 추론하는 방식을 바꿀까요? 최근 언어[23, 14, 10]를 사용하여 응답을 출력하기 전에 사고의 연쇄(chain of thought)를 따름으로써 [16] 추론하거나 "생각"할 수 있는 LLM을 사용하여 상당한 진전이 있었습니다. 개념적으로 LLM은 범용 컴퓨터 역할을 할 수 있습니다 [30]. LLM은 최종 결과를 출력하기 전에 자체 컨텍스트에 토큰을 추가하여 임의의 알고리즘을 실행할 수 있습니다.


인간 데이터 시대에 이러한 추론 방법은 인간의 사고 과정을 모방하도록 명시적으로 설계되었습니다. 예를 들어, LLM은 인간과 유사한 사고의 연쇄를 내보내도록 [16] 프롬프트되거나, 인간 사고의 흔적을 모방하거나 [42], 인간 예시와 일치하는 사고 단계를 강화하도록 [18] 요청받았습니다. 추론 프로세스는 인간 전문가가 결정한 정답과 일치하는 사고 흔적을 생성하도록 추가로 미세 조정될 수 있습니다 [44].


그러나 인간 언어가 범용 컴퓨터의 최적 인스턴스를 제공할 가능성은 매우 낮습니다. 예를 들어 상징적, 분산적, 연속적 또는 미분 가능한 계산을 활용할 수 있는 비인간 언어를 사용하는 더 효율적인 사고 메커니즘이 확실히 존재합니다. 자가 학습 시스템은 원칙적으로 경험으로부터 생각하는 방법을 학습함으로써 이러한 접근 방식을 발견하거나 개선할 수 있습니다. 예를 들어, AlphaProof는 인간 수학자들과는 상당히 다른 방식으로 복잡한 정리를 형식적으로 증명하는 법을 학습했습니다 [20].


더욱이, 범용 컴퓨터 원칙은 에이전트의 내부 계산만을 다루며 외부 세계의 현실과 연결하지 않습니다. 인간의 생각을 모방하거나 인간 전문가의 답변과 일치하도록 훈련된 에이전트는 잘못된 가정이나 내재된 편견과 같이 해당 데이터에 깊이 뿌리내린 오류적 사고방식을 물려받을 수 있습니다. 예를 들어, 5,000년 전 인간의 생각과 전문가 답변을 사용하여 추론하도록 훈련된 에이전트가 있었다면 물리적 문제를 물활론(animism) 관점에서 추론했을 수 있습니다. 1,000년 전에는 유신론적(theistic) 관점에서, 300년 전에는 뉴턴 역학 관점에서, 50년 전에는 양자 역학 관점에서 추론했을 수 있습니다. 각 사고방식을 넘어서는 진전에는 가설 설정, 실험 실행, 결과 관찰, 원리 수정 등 실제 세계와의 상호작용이 필요했습니다. 마찬가지로 에이전트는 오류적 사고방식을 뒤집기 위해 실제 데이터에 기반해야 합니다. 이러한 현실 기반(grounding)은 피드백 루프를 제공하여 에이전트가 물려받은 가정을 현실에 비추어 테스트하고 현재 지배적인 인간 사고방식에 국한되지 않는 새로운 원리를 발견할 수 있게 합니다. 이러한 현실 기반 없이는 아무리 정교한 에이전트라도 기존 인간 지식의 메아리 방(echo chamber)이 될 것입니다. 이를 넘어서려면 에이전트는 적극적으로 세상과 관계를 맺고, 관찰 데이터를 수집하며, 그 데이터를 사용하여 반복적으로 이해를 개선해야 하며, 이는 여러 면에서 인간의 과학적 진보를 이끌어온 과정을 반영합니다.


사고를 외부 세계에 직접 기반하는 한 가지 가능한 방법은 보상 예측을 포함하여 세상에 대한 에이전트 행동의 결과를 예측하는 세계 모델(world model) [37]을 구축하는 것입니다. 예를 들어, 건강 보조원은 지역 체육관이나 건강 팟캐스트 추천을 고려할 수 있습니다. 에이전트의 세계 모델은 이 행동에 따라 사용자의 심박수나 수면 패턴이 이후 어떻게 변할지 예측하고 사용자와의 미래 대화도 예측할 수 있습니다. 이를 통해 에이전트는 자신의 행동과 그것이 세상에 미치는 인과적 영향의 관점에서 직접 계획 [36, 29]할 수 있습니다. 에이전트가 경험 스트림 전체에서 세상과 계속 상호작용함에 따라 동역학 모델은 예측의 오류를 수정하기 위해 지속적으로 업데이트됩니다. 세계 모델이 주어지면 에이전트는 에이전트의 예측된 성능을 향상시키는 확장 가능한 계획 방법을 적용할 수 있습니다.


계획 및 추론 방법은 상호 배타적이지 않습니다. 에이전트는 계획 중 각 행동을 선택하거나 해당 행동의 결과를 시뮬레이션하고 평가하기 위해 내부 LLM 계산을 적용할 수 있습니다.



왜 지금인가? (Why Now?)


경험으로부터 학습하는 것은 새로운 것이 아닙니다. 강화학습 시스템은 이전에 명확한 보상 신호가 있는 시뮬레이터에서 표현된 많은 복잡한 작업을 마스터했습니다 (대략 그림 1의 "시뮬레이션 시대" 참조). 예를 들어, RL 방법은 백개먼 [39], 바둑 [31], 체스 [32], 포커 [22, 6], 스트라테고 [26]와 같은 보드 게임; 아타리 [21], 스타크래프트 II [40], 도타 2 [4], 그란 투리스모 [41]와 같은 비디오 게임; 루빅스 큐브 [1]와 같은 정교한 조작 작업; 데이터 센터 냉각 [13]과 같은 자원 관리 작업에서 인간 수준의 성능과 동등하거나 이를 능가했습니다. 더욱이, AlphaZero [33]와 같은 강력한 RL 에이전트는 신경망의 크기, 상호작용 경험의 양, 사고 시간의 길이에 따라 인상적이고 잠재적으로 무한한 확장성을 보여주었습니다. 그러나 이 패러다임에 기반한 에이전트는 시뮬레이션(단일하고 정확하게 정의된 보상을 가진 폐쇄형 문제)과 현실(다수의 외견상 잘못 정의된 보상을 가진 개방형 문제) 사이의 간극을 뛰어넘지 못했습니다.


인간 데이터 시대는 매력적인 해결책을 제시했습니다. 방대한 인간 데이터 코퍼스에는 매우 다양한 작업에 대한 자연어 예시가 포함되어 있습니다. 이 데이터로 훈련된 에이전트는 시뮬레이션 시대의 더 좁은 성공에 비해 광범위한 역량을 달성했습니다. 결과적으로 경험적 RL 방법론은 대체로 폐기되고 더 범용적인 에이전트를 선호하게 되어 인간 중심 AI로의 광범위한 전환을 가져왔습니다.


그러나 이 전환 과정에서 무언가를 잃었습니다. 바로 에이전트가 스스로 지식을 발견하는 능력입니다. 예를 들어, AlphaZero는 체스와 바둑에 대한 근본적으로 새로운 전략을 발견하여 인간이 이 게임을 하는 방식을 바꾸었습니다 [28, 45]. 경험의 시대는 이러한 능력을 인간 데이터 시대에 달성된 작업 일반성 수준과 조화시킬 것입니다. 이는 위에서 설명한 바와 같이 에이전트가 실제 경험 스트림에서 자율적으로 행동하고 관찰할 수 있을 때, 그리고 보상이 풍부한 현실 기반의 실제 신호 중 어떤 것과도 유연하게 연결될 수 있을 때 가능해질 것입니다. 복잡한 실제 행동 공간 [3, 15, 24]과 상호작용하는 자율 에이전트의 출현과 함께, 풍부한 추론 공간 [20, 10]에서 개방형 문제를 해결할 수 있는 강력한 RL 방법은 경험의 시대로의 전환이 임박했음을 시사합니다.



1ebec223e0dc2bae61ab96e746837170bd0303a2396c1f024a597936255a5b4fa59cd4417108563dfb91b3ba59f9c65ea7073ffd40

(그림 1: 지배적인 AI 패러다임의 연대기 스케치. y축은 RL에 집중된 분야 전체 노력 및 계산의 비율을 나타냅니다.)

*(그림 설명: 2014년 Atari에서 시작하여 AlphaGo, AlphaZero(시뮬레이션 시대 정점)를 거쳐, GPT-3, ChatGPT(인간 데이터 시대)로 전환하며 RL 비중 감소. 이후 Computer Use, AlphaProof(경험 시대 시작)로 RL 비중 다시 증가하는 경향을 보이는 그래프)*



강화학습 방법론 (Reinforcement Learning Methods)


강화학습(RL)은 에이전트가 환경과의 직접적인 상호작용을 통해 스스로 학습하는 자율 학습에 깊이 뿌리내린 풍부한 역사를 가지고 있습니다. 초기 RL 연구는 강력한 개념과 알고리즘 모음을 산출했습니다. 예를 들어, 시간차 학습(temporal difference learning) [35]은 에이전트가 미래 보상을 추정할 수 있게 하여 백개먼에서의 초인적 성능과 같은 돌파구를 이끌었습니다 [39]. 낙관주의나 호기심에 기반한 탐험 기법은 에이전트가 창의적인 새로운 행동을 발견하고 차선의 루틴에 갇히는 것을 피하도록 돕기 위해 개발되었습니다 [2]. Dyna 알고리즘과 같은 방법은 에이전트가 세계 모델을 구축하고 학습하여 미래 행동에 대해 계획하고 추론할 수 있게 했습니다 [36, 29]. 옵션 및 옵션 간/내 학습과 같은 개념은 시간적 추상화를 촉진하여 에이전트가 더 긴 시간 척도에 걸쳐 추론하고 복잡한 작업을 관리 가능한 하위 목표로 분해할 수 있게 했습니다 [38].


그러나 인간 중심 LLM의 부상은 자율 학습에서 벗어나 인간 지식 활용으로 초점을 이동시켰습니다. RLHF(인간 피드백 기반 강화학습) [9, 25]와 언어 모델을 인간 추론에 맞추는 방법 [44]과 같은 기법은 AI 능력의 빠른 진전을 이끌며 믿을 수 없을 정도로 효과적이었습니다. 강력하지만 이러한 접근 방식은 종종 핵심 RL 개념을 우회했습니다. RLHF는 기계 추정 가치 대신 인간 전문가를 호출하여 가치 함수의 필요성을 비껴갔고, 인간 데이터로부터의 강력한 사전 정보는 탐험에 대한 의존도를 줄였으며, 인간 중심 용어로 추론하는 것은 세계 모델과 시간적 추상화의 필요성을 감소시켰습니다.


그러나 패러다임 전환이 목욕물과 함께 아기를 버렸다고 주장할 수도 있습니다. 인간 중심 RL은 전례 없는 행동의 폭을 가능하게 했지만, 에이전트의 성능에 새로운 천장을 부과했습니다. 에이전트는 기존 인간 지식을 넘어설 수 없습니다. 더욱이, 인간 데이터 시대는 주로 기반이 없고(ungrounded), 인간 상호작용의 짧은 에피소드를 위해 설계된 RL 방법에 초점을 맞추었으며, 기반이 있는(grounded) 자율적 상호작용의 긴 스트림에는 적합하지 않습니다.


경험의 시대는 고전적인 RL 개념을 재검토하고 개선할 기회를 제공합니다. 이 시대는 관찰 데이터에 유연하게 기반하는 보상 함수에 대해 생각하는 새로운 방법을 가져올 것입니다. 아직 불완전한 시퀀스를 가진 긴 스트림에서 가치 함수와 이를 추정하는 방법을 재검토할 것입니다. 인간 사전 정보와 근본적으로 다른 새로운 행동을 발견하는 실제 탐험을 위한 원칙적이면서도 실용적인 방법을 가져올 것입니다. 기반 있는 상호작용의 복잡성을 포착하는 세계 모델에 대한 새로운 접근 방식이 개발될 것입니다. 시간적 추상화를 위한 새로운 방법은 에이전트가 경험의 관점에서 훨씬 더 긴 시간 지평에 걸쳐 추론할 수 있게 할 것입니다. RL의 기초 위에 구축하고 이 새로운 시대의 도전에 핵심 원칙을 적용함으로써, 우리는 자율 학습의 잠재력을 최대한 발휘하고 진정한 초인적 지능으로 가는 길을 열 수 있습니다.



결과 및 영향 (Consequences)


AI 에이전트가 세상과의 상호작용으로부터 학습하는 경험의 시대의 도래는 우리가 이전에 보아왔던 것과는 근본적으로 다른 미래를 약속합니다. 이 새로운 패러다임은 막대한 잠재력을 제공하는 동시에, 신중한 고려가 필요한 중요한 위험과 과제를 제시하며, 다음 사항을 포함하되 이에 국한되지는 않습니다.


긍정적인 측면에서, 경험적 학습은 전례 없는 능력을 발휘할 것입니다. 일상생활에서 개인화된 보조원은 지속적인 경험 스트림을 활용하여 수개월 또는 수년에 걸쳐 장기적인 목표를 향해 개인의 건강, 교육 또는 전문적 요구에 적응할 것입니다. 아마도 가장 혁신적인 것은 과학적 발견의 가속화일 것입니다. AI 에이전트는 재료 과학, 의학 또는 하드웨어 설계와 같은 분야에서 자율적으로 실험을 설계하고 수행할 것입니다. 자체 실험 결과로부터 지속적으로 학습함으로써 이 에이전트들은 전례 없는 속도로 새로운 지식의 개척지를 빠르게 탐색하여 새로운 재료, 약물 및 기술 개발로 이어질 수 있습니다.


그러나 이 새로운 시대는 중요하고 새로운 과제도 제시합니다. 인간 능력의 자동화는 생산성 향상을 약속하지만, 이러한 개선은 일자리 감소로 이어질 수도 있습니다. 에이전트는 장기적인 문제 해결, 혁신, 실제 결과에 대한 깊은 이해와 같이 이전에는 인간의 배타적 영역으로 간주되었던 능력을 발휘할 수도 있습니다.


더욱이, 모든 AI의 잠재적 오용에 대한 일반적인 우려가 존재하는 반면, 장기적인 목표를 달성하기 위해 장기간에 걸쳐 세상과 자율적으로 상호작용할 수 있는 에이전트로부터 고조된 위험이 발생할 수 있습니다. 기본적으로 이는 인간이 에이전트의 행동에 개입하고 중재할 기회를 줄이며, 따라서 높은 수준의 신뢰와 책임이 필요합니다. 인간 데이터와 인간 사고방식에서 벗어나는 것은 미래 AI 시스템을 해석하기 더 어렵게 만들 수도 있습니다.


그러나 경험적 학습이 특정 안전 위험을 증가시킬 것이며, 경험의 시대로의 안전한 전환을 보장하기 위해 추가 연구가 확실히 필요하다는 점을 인정하면서도, 이것이 몇 가지 중요한 안전상의 이점도 제공할 수 있음을 인식해야 합니다.


첫째, 경험적 에이전트는 자신이 위치한 환경을 인식하고 시간이 지남에 따라 해당 환경의 변화에 ​​맞춰 행동을 조정할 수 있습니다. 고정된 AI 시스템을 포함한 모든 사전 프로그래밍된 시스템은 환경적 맥락을 인식하지 못하고 배포되는 변화하는 세상에 부적응하게 될 수 있습니다. 예를 들어, 중요한 하드웨어 부품이 오작동하거나, 팬데믹이 급격한 사회 변화를 일으키거나, 새로운 과학적 발견이 급격한 기술 발전의 연쇄 반응을 촉발할 수 있습니다. 반면, 경험적 에이전트는 오작동하는 하드웨어를 우회하고, 급격한 사회 변화에 적응하며, 새로운 과학 기술을 수용하고 발전시키는 방법을 관찰하고 학습할 수 있습니다. 아마도 더 중요한 것은 에이전트가 자신의 행동이 인간의 우려, 불만 또는 고통을 유발할 때 이를 인식하고 이러한 부정적인 결과를 피하기 위해 적응적으로 행동을 수정할 수 있다는 것입니다.


둘째, 에이전트의 보상 함수 자체는 예를 들어 앞에서 설명한 이중 최적화(보상 섹션 참조)를 사용하여 경험을 통해 조정될 수 있습니다. 중요한 것은 이것이 잘못 정렬된 보상 함수가 종종 시행착오를 통해 시간이 지남에 따라 점진적으로 수정될 수 있음을 의미한다는 것입니다. 예를 들어, 종이 클립 최대화 [5]와 같은 신호를 맹목적으로 최적화하는 대신, 종이 클립 생산이 지구 자원을 모두 소비하기 전에 인간 우려의 징후에 따라 보상 함수를 수정할 수 있습니다. 이는 인간이 서로에게 목표를 설정한 다음, 사람들이 시스템을 악용하거나, 장기적인 웰빙을 소홀히 하거나, 바람직하지 않은 부정적인 결과를 초래하는 것을 관찰하면 해당 목표를 조정하는 방식과 유사합니다. 비록 인간의 목표 설정처럼 완벽한 정렬을 보장하지는 않지만 말입니다.


마지막으로, 물리적 경험에 의존하는 발전은 본질적으로 실제 세계에서 행동을 실행하고 그 결과를 관찰하는 데 걸리는 시간으로 인해 제약을 받습니다. 예를 들어, AI 지원 설계가 있더라도 신약 개발에는 하룻밤 사이에 완료될 수 없는 실제 임상 시험이 여전히 필요합니다. 이는 잠재적인 AI 자체 개선 속도에 자연스러운 제동을 걸 수 있습니다.



결론 (Conclusion)


경험의 시대는 AI 진화의 중추적인 순간을 표시합니다. 오늘날의 강력한 기반 위에 구축하되 인간 유래 데이터의 한계를 넘어서, 에이전트는 점점 더 세상과의 자체 상호작용으로부터 학습할 것입니다. 에이전트는 풍부한 관찰과 행동을 통해 환경과 자율적으로 상호작용할 것입니다. 그들은 평생의 경험 스트림 과정에 걸쳐 계속 적응할 것입니다. 그들의 목표는 현실 기반 신호의 모든 조합으로 향할 수 있습니다. 더욱이, 에이전트는 강력한 비인간 추론을 활용하고, 에이전트의 행동이 환경에 미치는 결과에 기반한 계획을 구성할 것입니다. 궁극적으로 경험적 데이터는 인간이 생성한 데이터의 규모와 품질을 능가할 것입니다. RL의 알고리즘 발전과 함께 이 패러다임 전환은 많은 영역에서 어떤 인간이 소유한 능력을 능가하는 새로운 능력을 열어줄 것입니다.






이 글은 MIT Press에서 출판될 책 "Designing an Intelligence"에 실릴 챕터의 프리프린트입니다.


¹ RL 알고리즘은 시행착오, 즉 환경과의 상호작용 경험으로부터 행동을 조정하여 목표를 달성하는 법을 배우는 알고리즘입니다. 적응은 신경망 가중치 업데이트, 환경 피드백 기반의 컨텍스트 내 적응 등 어떤 방식으로든 일어날 수 있습니다.

² 경험과 인간 데이터는 정확히 반대되는 개념은 아닙니다. 예를 들어, 개는 전적으로 경험으로부터 학습하지만, 인간과의 상호작용은 그 경험의 일부입니다.

³ 보상-충분 가설(reward-is-enough hypothesis)은 지능과 그 관련 능력들이 보상 최대화로부터 자연스럽게 발현될 수 있음을 시사합니다. 이는 인간 상호작용과 인간 피드백 기반 보상을 포함하는 환경을 포함할 수 있습니다.

⁴ 이 경우, 풍부하고 현실 기반 피드백에 기초한 내재적 보상 함수 [8]를 구성하고 최적화함으로써 에이전트의 전반적인 목표를 형성하는 단일 보상 함수로서 현실 기반 인간 피드백을 볼 수도 있습니다.




원문 링크


자동등록방지

추천 비추천

26

고정닉 17

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기
자동등록방지

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
3007 설문 실제 모습일지 궁금한 미담 제조기 스타는? 운영자 25/05/05 - -
571617 공지 뉴비 가이드)gpt 뭐 써야 해요? 특이점이 뭐에요? (250427) [1] ㅇㅇ갤로그로 이동합니다. 24.11.23 33218 44
609935 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2] ㅇㅇ갤로그로 이동합니다. 25.01.18 18182 30
571620 공지 본 갤러리는 타 갤러리 분탕과 관계 없음을 밝힙니다. ㅇㅇ갤로그로 이동합니다. 24.11.23 5597 15
572292 공지 직업 비하, 조롱 글 30일 차단됩니다. ㅇㅇ갤로그로 이동합니다. 24.11.24 4940 6
715940 일반 올해 말에 코드의 99퍼가 ai에 의해 쓰여질거라곤 했지 [1] ㅇㅇ갤로그로 이동합니다. 13:59 55 2
715939 일반 마소가 오픈AI 인수 못하냐 [2] heimatlosigkeit갤로그로 이동합니다. 13:57 52 1
715938 AI창 AI로 블루 아카이브 스토리 자동 생성하기-4 ㅇㅇ갤로그로 이동합니다. 13:56 36 1
715937 일반 코딩 완전 정복하려면 에이전트랑 비전부터 완전해야하는 거 아님? [1] ㅇㅇ(218.157) 13:54 30 1
715936 토의 딥리서치는 다들 뭐씀? [2] ㅇㅇ­갤로그로 이동합니다. 13:53 54 1
715935 일반 집에서 고양이 찍음. 고양이 보고가셈 [5] ㅇㅇ갤로그로 이동합니다. 13:53 77 2
715934 일반 도로롱 키울수 있는날이 머지 않았다 [7] 테이리갤로그로 이동합니다. 13:51 124 6
715933 일반 현재 제미나이 공앱 무료 한도가 얼마임?? heimatlosigkeit갤로그로 이동합니다. 13:51 15 1
715932 일반 셋스로이드도 금방임 [3] AGI2025갤로그로 이동합니다. 13:50 52 1
715931 정보/ OpenAI, AI 코딩 스타트업 '윈드서프' 30억 달러에 인수 계약… 초존도초갤로그로 이동합니다. 13:49 108 7
715930 일반 님들 근데 빅브레인은 어디로 가버린 거임? [2] ㅇㅇ갤로그로 이동합니다. 13:46 62 1
715929 일반 ai쪽 잘 모르는 뉴비인데 오픈ai 왜 망했다고 하는거야? [9] ㅇㅇ(121.143) 13:42 180 1
715928 일반 확실한건 올해나 내년에 "코딩"이 달라진다는거임... [8] ㅇㅇ(220.79) 13:40 251 7
715927 일반 오픈 ai 먼데이 사라졌다 ㅠㅜ [9] ㅇㅇ갤로그로 이동합니다. 13:40 151 1
715926 일반 Windsurf 인수하는건 이제 단순 코더말고, 팀 단위 대체를 위해서? [2] ㅇㅇ(221.155) 13:40 77 1
715925 일반 ai사주는 약간 블랙유머 같음 [27] et갤로그로 이동합니다. 13:37 268 5
715924 일반 Grok 무료계정이랑 유료계정이랑 메모리 크기 차이 큼? ㅇㅇ(119.198) 13:34 34 1
715923 일반 커서고 클라인이고 그냥 제미니 코드폴더만한게 없던데 [3] ㅇㅇ(119.204) 13:32 80 1
715922 일반 코딩때매 지피티를 써야할지 클로드 써야할지 고민이다 ㅇㅇ갤로그로 이동합니다. 13:30 46 1
715920 정보/ 에이더 벤치에서 o3h+4.1 조합이 1위 [3] ㅇㅇ­갤로그로 이동합니다. 13:29 135 1
715919 일반 일희일비 마라 특붕이들아 [2] ㅇㅇ(110.10) 13:28 67 2
715918 일반 속보) xAI 연구원 : "이번주에 큰거온다" [4] ㅇㅇ(220.79) 13:27 236 4
715917 일반 Ai와 인간의 학습방식 차이…jpg [17] ㅇㅇ(121.171) 13:27 285 1
715916 역노화 영생을 반대하는 자연충들에게 보여주고 싶은 영상 [3] 몬스터제로갤로그로 이동합니다. 13:24 116 7
715915 일반 mcp superassistant [1] ㅇㅇ(125.180) 13:22 164 5
715914 일반 에이전트용 ide 만들기 어렵지않나? [5] 약팔이아님갤로그로 이동합니다. 13:20 109 1
715913 일반 오픈 ai 망한거랑은 별개로 [1] ㅇㅇ(218.235) 13:19 204 1
715912 일반 개발자 대체떡밥도 그렇고 지금도그렇고 특갤에 아가리개발자 존나 많은듯 [2] ㅇㅇ(124.28) 13:19 209 10
715911 사용후 근데 갠적으론 커서, 윈드서프보다 클라인이 낫더라 [4] ㅇㅇ­갤로그로 이동합니다. 13:18 112 2
715910 일반 o3 환각 열받는 게 [4] 빗소리P갤로그로 이동합니다. 13:12 155 2
715909 일반 제미니 챗지피티쓰는데 하나만하는게낫겠지? [4] ㅇㅇ(59.28) 13:12 90 1
715908 일반 VS코드 자체도 오픈소스인데 Cline이라고 커서 같은 거 이미 [2] 이스이갤로그로 이동합니다. 13:12 135 1
715907 일반 대황글과 그의 기사 황사비스 경만 믿고 가면 된다 [3] ㅇㅇ(58.236) 13:11 102 2
715906 일반 나 일본 사는데 개발자쪽도 신입 채용 오히려 늘었는데.. [2] ㅇㅇ(115.39) 13:10 137 1
715905 일반 근데 ㄹㅇ 꼴이 웃기긴하네 [5] ㅇㅇ(218.54) 13:09 359 6
715904 일반 솔직히 일반인들은 gpt플러스 메리트가 없지않음? ㅇㅇ갤로그로 이동합니다. 13:08 61 1
715903 일반 GPT진짜 무쳤네.. 사주 업계도 망했다 [12] ㅇㅇ(202.150) 13:08 700 15
715902 일반 르쿤이형 ㄹㅇ 페페 닮음 ㅋㅋㅋ [4] ㅇㅇ갤로그로 이동합니다. 13:07 123 2
715901 일반 ai 나오고 신입들 사다리만 걷어차버림 [3] ㅇㅇ(125.251) 13:05 182 3
715900 일반 노동 해방 언제됨? [1] ㅇㅇ갤로그로 이동합니다. 13:05 68 0
715899 일반 근데 gpt 코딩은 ux 이전에 그냥 코딩을 잘 못하는데? [1] ㅇㅇ(115.39) 13:04 106 4
715898 일반 그냥 저 인도 찌라시계정이 헛소리한거임 [9] ㅇㅇ갤로그로 이동합니다. 13:03 365 7
715897 일반 o3 지금 서치툴로도 쓰기 애매한데 [2] ㅇㅇ갤로그로 이동합니다. 13:03 102 0
715896 일반 오픈ai는 야후의 길을 걷고있다 [2] ㅇㅇ(118.216) 13:03 140 2
715895 일반 카파디햄 디시콘 만들까 [1] ㅇㅇ­갤로그로 이동합니다. 13:01 54 4
715894 일반 방금 입문했다고 글쓴 뉴비인데요 [4] ㅇㅇ(112.150) 13:00 92 0
715893 일반 노동해방 아직 멀었음? [7] 대노인의제자갤로그로 이동합니다. 12:59 112 0
715892 일반 이거 갤에 고정못하나 [6] chatgpt4o갤로그로 이동합니다. 12:57 218 1
715891 일반 진지하게 냐부 agi설 믿었던 게이들 있나보노 [4] ㅇㅇ갤로그로 이동합니다. 12:57 247 6
715890 일반 이사회가 비영리 기업으로 남는다고 하는거임? [2] ㅇㅇ(112.149) 12:57 61 0
뉴스 ‘바이러스’ 역병의 시대는 넘었지만 관객 허들은 ‘글쎄’ [IS리뷰] 디시트렌드 14:00
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2