언어모델은 비밀리에 Q-함수입니다 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보/뉴스] 언어모델은 비밀리에 Q-함수입니다모바일에서 작성

특술람

2024.04.19 10:38:18

조회 311 추천 4 댓글 4

7ced8076b5836af43ae798bf06d6040348dccfae597d3db01470

https://arxiv.org/abs/2404.12358

From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function

Reinforcement Learning From Human Feedback (RLHF) has been a critical to the success of the latest generation of generative AI models. In response to the complex nature of the classical RLHF pipeline, direct alignment algorithms such as Direct Preference Optimization (DPO) have emerged as an alternative approach. Although DPO solves the same objective as the standard RLHF setup, there is a mismatch between the two approaches. Standard RLHF deploys reinforcement learning in a specific token-level MDP, while DPO is derived as a bandit problem in which the whole response of the model is treated as a single arm. In this work we rectify this difference, first we theoretically show that we can derive DPO in the token-level MDP as a general inverse Q-learning algorithm, which satisfies the Bellman equation. Using our theoretical results, we provide three concrete empirical insights. First, we show that because of its token level interpretation, DPO is able to perform some type of credit assignment. Next, we prove that under the token level formulation, classical search-based algorithms, such as MCTS, which have recently been applied to the language generation space, are equivalent to likelihood-based search on a DPO policy. Empirically we show that a simple beam search yields meaningful improvement over the base DPO policy. Finally, we show how the choice of reference policy causes implicit rewards to decline during training. We conclude by discussing applications of our work, including information elicitation in multi-tun dialogue, reasoning, agentic applications and end-to-end training of multi-model systems.

arxiv.org

이 논문은 강화 학습의 한 종류인 DPO(Direct Preference Optimization) 알고리즘을 대규모 언어 모델에 적용하는 내용을 다룹니다. 주요 내용은 다음과 같습니다:

1. DPO는 기존에는 contextual bandit 문제로 다뤄졌지만, 실제로는 토큰 단위의 MDP(Markov Decision Process)로 해석할 수 있음을 보였습니다.

2. 이를 통해 DPO는 암묵적으로 토큰 단위의 보상 함수(reward function)를 학습하며, 언어 모델의 logit이 최적의 Q 함수가 됨을 증명했습니다.

3. 실험을 통해 DPO는 토큰 단위의 credit assignment가 가능하고, 생성 시 beam search를 사용하면 검색 기반 최적화와 유사한 성능 향상을 얻을 수 있음을 보였습니다.

4. 또한 초기 정책과 참조 분포의 선택이 학습 중 암묵적 보상의 변화에 영향을 준다는 것도 밝혔습니다.

5. 이러한 연구 결과는 multi-turn 대화, 추론, 에이전트 시스템, 엔드투엔드 멀티모달 시스템 학습 등 다양한 분야에 DPO를 적용할 수 있는 이론적 기반을 제공합니다.

즉, DPO를 언어 모델의 토큰 단위 의사결정 과정으로 새롭게 해석함으로써, 기존 강화학습 알고리즘들과의 관계를 명확히 하고 앞으로의 활용 가능성을 제시한 논문이라고 할 수 있겠습니다.

고정닉 2

원본 첨부파일 1

1000012248.jpg

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2863	설문	시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는?	운영자	24/05/27	-	-
473959	일반	현타오노. 새벽에 2시간 태웠는데	ㅇㅇ(221.155)	05.15	95	3
473958	일반	이게 끝이라고???????	이세이미야케	05.15	60	0
473957	일반	이렇게 되면 애플,삼성 등이 오픈AI한테 잘보여야됨? [10]	ㅇㅇ(211.179)	05.15	347	1
473956	일반	인도개발자 특징	ㅇㅇ(14.36)	05.15	101	0
473955	일반	구글IO 끝.. 이쯤에서 이새끼 개병신이면 개추 [1]	ㅇㅇ	05.15	396	14
473954	일반	와 구글은 영상 참 잘만든다~	FIREKICK	05.15	58	0
473953	일반	이거보고 장기휴가 버튼 누른 openAI팀 많을거 같다	ㅇㅇ	05.15	96	0
473952	일반	근데 오픈AI가 만약 존재안했고 구글밖에 없었다면? [2]	ㅇㅇ(222.119)	05.15	172	1
473950	일반	진짜 울트라 없네...	indie	05.15	45	0
473949	일반	(특갤 오피셜) GOD	ㅇㅇ	05.15	131	0
473948	일반	딱 4:00 네. 손흥민 경기 들가자	ㅇㅇ(121.156)	05.15	36	0
473946	일반	땡큐?	ㅇㅇ(119.77)	05.15	41	0
473945	일반	네이버도 구글급 인프라있으면 제미니 따먹음 ㅇㅇ [1]	ㅇㅇ	05.15	130	0
473944	일반	얀버지 이제야 깨닳아요	ㅇㅇ(58.234)	05.15	69	1
473943	일반	지금까지 본 사람? [2]	ㅇㅇ(112.149)	05.15	68	0
473942	일반	드디어 끝이냐?	ㅇㅇ	05.15	33	0
473941	일반	아직 클로드 남아있잖아 한잔해 [3]	ㅇㅇ(175.213)	05.15	138	0
473940	일반	라마4도 클로드4도 내년인데 씨발 [1]	ㅇㅇ(121.131)	05.15	216	0
473939	일반	구하하하하 한번더말하니까 카운트 됐어 구하하	ㅇㅇ	05.15	34	0
473938	일반	좋겠다 이 튀기련아ㅋㅋㅋㅋㅋㅋㅋ	ㅇㅇ	05.15	48	0
473937	일반	하다하다 'AI 120번 말했도르' 씨발 ㅋㅋㅋㅋㅋㅋㅋ [1]	ㅇㅇ(119.77)	05.15	172	0
473936	일반	최소한 언제 공개할건지 시기라도 알려주면안되나	ㅇㅇ	05.15	27	0
473935	일반	트랜스포머를 지들이 만들었으면서 에휴	ㅇㅇ	05.15	56	0
473934	일반	GPT5는 개무거울거같음? [5]	ㅇㅇ(118.34)	05.15	181	1
473933	일반	구글은 본질적으로 AI 성능 올리는법을 모르는 상태인듯	ㅇㅇ	05.15	101	0
473932	일반	발표 지금까지 알파벳 VS 오픈AI 누구 승리임? [2]	내복맨	05.15	136	0
473931	일반	랩틸리언 웃는 소리 안들리노?	ㅇㅇ(14.36)	05.15	55	0
473930	일반	??? : 흠.... [22]	ㅇㅇ(211.200)	05.15	4566	50
473929	일반	구글 인프라 전부 해체해서 oai주자 ㅇㅇ	ㅇㅇ	05.15	54	1
473928	일반	구글은 그냥 tpu 판매 전문 기업으로 노선 틀어야 된다	ㅇㅇ	05.15	46	0
473927	일반	구글 이 병신들 이제 메타한테도 털리겠노	ㅇㅇ	05.15	53	0
473926	일반	GPT5는 GPT4O를 개쓰레기로만들어버린다던데	ㅇㅇ(118.34)	05.15	130	0
473925	일반	오픈ai랑 갈수록 기술격차 벌어질듯 [5]	ㅇㅇ(182.212)	05.15	221	2
473924	일반	로건 킬페트릭 이새끼는 구글에서 돈을 얼마나줬길래 ㅅㅂ ㅋㅋ [1]	ㅇㅇ	05.15	98	1
473923	일반	그러고보니 미스트랄 라지 챗봇 나왔더라 [2]	TS망상	05.15	101	1
473922	일반	서클투서치 존나 좋아하는 거 같으면 개추 ㅋㅋㅋㅋㅋㅋ	ㅇㅇ	05.15	45	0
473921	일반	LLM격차가 이렇게심각하게나노 [2]	ㅇㅇ(118.34)	05.15	142	0
473920	일반	이제 믿을건 클로드 라마 뿐이다	ㅇㅇ	05.15	61	0
473919	일반	저 인프라 가지고 조지는 거도 재능 아님?	ㅇㅇ	05.15	39	0
473917	일반	구글에게 2번당한 특갤러들	ㅇㅇ(118.34)	05.15	53	0
473916	일반	일리야 개발휴가예정ㅋㅋㅋㅋㅋㅋㅋㅋ	ㅇㅋ	05.15	92	0
473915	일반	구글 객관화 안되는 거 개 꼴받네	ㅇㅇ(14.36)	05.15	70	1
473914	일반	제미니 개발할때 쓴 글카 뜯어서 제 2의 치타 클로드에 주는게 맞다 [2]	퐁칸8	05.15	99	0
473913	일반	그래..알파폴드는 잘했어 ㅇㅇ..	ㅇㅇ	05.15	111	0
473912	일반	니들이 잘해야 씻팔 gpt5가 빨리 나올 거 아니야	ㅇㅇ(116.123)	05.15	41	0
473911	일반	킹파폴드 재입갤 ㅋㅋㅋㅋㅋㅋㅋ	ㅇㅇ	05.15	117	0
473910	일반	이제부터 구글은 치타 아니다 [1]	이세이미야케	05.15	136	1
473909	일반	구글 견제하던 알트만도 보다 졸려서 껐을듯 [1]	ㅇㅇ	05.15	72	0
473908	일반	별 거 없을 거라고 생각은 했는데 진짜 해도 해도 너무하네;;; [1]	ㅇㅇ	05.15	86	0
473907	일반	아오 뭔 ai 워터마크를 달아	ㅇㅇ	05.15	59	0