Latest AI news 2024/1/19 최신 AI 뉴스
Self-Rewarding Language Models
자체 보상 언어 모델
Meta
NYU
Abstract
We posit that to achieve superhuman agents, future models require superhuman feedback in order to provide an adequate training signal. Current approaches commonly train reward models from human preferences, which may then be bottlenecked by human performance level, and secondly these separate frozen reward models cannot then learn to improve during LLM training. In this work, we study Self-Rewarding Language Models, where the language model itself is used via LLM-as-a-Judge prompting to provide its own rewards during training. We show that during Iterative DPO training that not only does instruction following ability improve, but also the ability to provide high-quality rewards to itself. Fine-tuning Llama 2 70B on three iterations of our approach yields a model that outperforms many existing systems on the AlpacaEval 2.0 leaderboard, including Claude 2, Gemini Pro, and GPT-4 0613. While only a preliminary study, this work opens the door to the possibility of models that can continually improve in both axes.
우리는 초인간적 에이전트를 달성하기 위해서는, 미래 모델들이 충분한 훈련 신호를 제공하기 위해 초인간적 피드백이 필요하다고 주장한다. 현재의 접근 방식들은 주로 인간의 선호도로부터 보상 모델을 훈련시키는데, 이는 인간의 성능 수준에 의해 제한될 수 있으며, 둘째로 이러한 별도의 고정된 보상 모델들은 LLM 훈련 중에 개선을 배우지 못한다. 이 연구에서는, 언어 모델 자체가 LLM-as-a-Judge 프롬프트를 통해 훈련 중에 자체 보상을 제공하는 자체 보상 언어 모델(Self-Rewarding Language Models)을 연구한다. 우리는 반복적인 DPO 훈련 동안 지시를 따르는 능력뿐만 아니라 자체에게 고품질 보상을 제공하는 능력도 향상됨을 보여준다. Llama 2 70B를 저희 접근 방식의 세 번의 반복에 걸쳐 미세 조정한 결과, AlpacaEval 2.0 리더보드에서 Claude 2, Gemini Pro, GPT-4 0613을 포함한 많은 기존 시스템들을 능가하는 모델이 생성되었다. 이것은 단지 예비 연구일 뿐이지만, 이 연구는 양쪽 축에서 지속적으로 개선될 수 있는 모델의 가능성을 열어준다.
https://arxiv.org/pdf/2401.10020.pdf
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.