디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 언어모델은 비밀리에 Q-함수입니다모바일에서 작성

특술람갤로그로 이동합니다. 2024.04.19 10:38:18
조회 311 추천 4 댓글 4
														
7ced8076b5836af43ae798bf06d6040348dccfae597d3db01470


https://arxiv.org/abs/2404.12358

 

From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function

Reinforcement Learning From Human Feedback (RLHF) has been a critical to the success of the latest generation of generative AI models. In response to the complex nature of the classical RLHF pipeline, direct alignment algorithms such as Direct Preference Optimization (DPO) have emerged as an alternative approach. Although DPO solves the same objective as the standard RLHF setup, there is a mismatch between the two approaches. Standard RLHF deploys reinforcement learning in a specific token-level MDP, while DPO is derived as a bandit problem in which the whole response of the model is treated as a single arm. In this work we rectify this difference, first we theoretically show that we can derive DPO in the token-level MDP as a general inverse Q-learning algorithm, which satisfies the Bellman equation. Using our theoretical results, we provide three concrete empirical insights. First, we show that because of its token level interpretation, DPO is able to perform some type of credit assignment. Next, we prove that under the token level formulation, classical search-based algorithms, such as MCTS, which have recently been applied to the language generation space, are equivalent to likelihood-based search on a DPO policy. Empirically we show that a simple beam search yields meaningful improvement over the base DPO policy. Finally, we show how the choice of reference policy causes implicit rewards to decline during training. We conclude by discussing applications of our work, including information elicitation in multi-tun dialogue, reasoning, agentic applications and end-to-end training of multi-model systems.

arxiv.org



이 논문은 강화 학습의 한 종류인 DPO(Direct Preference Optimization) 알고리즘을 대규모 언어 모델에 적용하는 내용을 다룹니다. 주요 내용은 다음과 같습니다:

1. DPO는 기존에는 contextual bandit 문제로 다뤄졌지만, 실제로는 토큰 단위의 MDP(Markov Decision Process)로 해석할 수 있음을 보였습니다.  

2. 이를 통해 DPO는 암묵적으로 토큰 단위의 보상 함수(reward function)를 학습하며, 언어 모델의 logit이 최적의 Q 함수가 됨을 증명했습니다.

3. 실험을 통해 DPO는 토큰 단위의 credit assignment가 가능하고, 생성 시 beam search를 사용하면 검색 기반 최적화와 유사한 성능 향상을 얻을 수 있음을 보였습니다.

4. 또한 초기 정책과 참조 분포의 선택이 학습 중 암묵적 보상의 변화에 영향을 준다는 것도 밝혔습니다.

5. 이러한 연구 결과는 multi-turn 대화, 추론, 에이전트 시스템, 엔드투엔드 멀티모달 시스템 학습 등 다양한 분야에 DPO를 적용할 수 있는 이론적 기반을 제공합니다.

즉, DPO를 언어 모델의 토큰 단위 의사결정 과정으로 새롭게 해석함으로써, 기존 강화학습 알고리즘들과의 관계를 명확히 하고 앞으로의 활용 가능성을 제시한 논문이라고 할 수 있겠습니다.
자동등록방지

추천 비추천

4

고정닉 2

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
473959 일반 현타오노. 새벽에 2시간 태웠는데 ㅇㅇ(221.155) 05.15 95 3
473958 일반 이게 끝이라고??????? 이세이미야케갤로그로 이동합니다. 05.15 60 0
473957 일반 이렇게 되면 애플,삼성 등이 오픈AI한테 잘보여야됨? [10] ㅇㅇ(211.179) 05.15 347 1
473956 일반 인도개발자 특징 ㅇㅇ(14.36) 05.15 101 0
473955 일반 구글IO 끝.. 이쯤에서 이새끼 개병신이면 개추 [1] ㅇㅇ갤로그로 이동합니다. 05.15 396 14
473954 일반 와 구글은 영상 참 잘만든다~ FIREKICK갤로그로 이동합니다. 05.15 58 0
473953 일반 이거보고 장기휴가 버튼 누른 openAI팀 많을거 같다 ㅇㅇ갤로그로 이동합니다. 05.15 96 0
473952 일반 근데 오픈AI가 만약 존재안했고 구글밖에 없었다면? [2] ㅇㅇ(222.119) 05.15 172 1
473950 일반 진짜 울트라 없네... indie갤로그로 이동합니다. 05.15 45 0
473949 일반 (특갤 오피셜) GOD ㅇㅇ갤로그로 이동합니다. 05.15 131 0
473948 일반 딱 4:00 네. 손흥민 경기 들가자 ㅇㅇ(121.156) 05.15 36 0
473946 일반 땡큐? ㅇㅇ(119.77) 05.15 41 0
473945 일반 네이버도 구글급 인프라있으면 제미니 따먹음 ㅇㅇ [1] ㅇㅇ갤로그로 이동합니다. 05.15 130 0
473944 일반 얀버지 이제야 깨닳아요 ㅇㅇ(58.234) 05.15 69 1
473943 일반 지금까지 본 사람? [2] ㅇㅇ(112.149) 05.15 68 0
473942 일반 드디어 끝이냐? ㅇㅇ갤로그로 이동합니다. 05.15 33 0
473941 일반 아직 클로드 남아있잖아 한잔해 [3] ㅇㅇ(175.213) 05.15 138 0
473940 일반 라마4도 클로드4도 내년인데 씨발 [1] ㅇㅇ(121.131) 05.15 216 0
473939 일반 구하하하하 한번더말하니까 카운트 됐어 구하하 ㅇㅇ갤로그로 이동합니다. 05.15 34 0
473938 일반 좋겠다 이 튀기련아ㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.15 48 0
473937 일반 하다하다 'AI 120번 말했도르' 씨발 ㅋㅋㅋㅋㅋㅋㅋ [1] ㅇㅇ(119.77) 05.15 172 0
473936 일반 최소한 언제 공개할건지 시기라도 알려주면안되나 ㅇㅇ갤로그로 이동합니다. 05.15 27 0
473935 일반 트랜스포머를 지들이 만들었으면서 에휴 ㅇㅇ갤로그로 이동합니다. 05.15 56 0
473934 일반 GPT5는 개무거울거같음? [5] ㅇㅇ(118.34) 05.15 181 1
473933 일반 구글은 본질적으로 AI 성능 올리는법을 모르는 상태인듯 ㅇㅇ갤로그로 이동합니다. 05.15 101 0
473932 일반 발표 지금까지 알파벳 VS 오픈AI 누구 승리임? [2] 내복맨갤로그로 이동합니다. 05.15 136 0
473931 일반 랩틸리언 웃는 소리 안들리노? ㅇㅇ(14.36) 05.15 55 0
473930 일반 ??? : 흠.... [22] ㅇㅇ(211.200) 05.15 4566 50
473929 일반 구글 인프라 전부 해체해서 oai주자 ㅇㅇ ㅇㅇ갤로그로 이동합니다. 05.15 54 1
473928 일반 구글은 그냥 tpu 판매 전문 기업으로 노선 틀어야 된다 ㅇㅇ갤로그로 이동합니다. 05.15 46 0
473927 일반 구글 이 병신들 이제 메타한테도 털리겠노 ㅇㅇ갤로그로 이동합니다. 05.15 53 0
473926 일반 GPT5는 GPT4O를 개쓰레기로만들어버린다던데 ㅇㅇ(118.34) 05.15 130 0
473925 일반 오픈ai랑 갈수록 기술격차 벌어질듯 [5] ㅇㅇ(182.212) 05.15 221 2
473924 일반 로건 킬페트릭 이새끼는 구글에서 돈을 얼마나줬길래 ㅅㅂ ㅋㅋ [1] ㅇㅇ갤로그로 이동합니다. 05.15 98 1
473923 일반 그러고보니 미스트랄 라지 챗봇 나왔더라 [2] TS망상갤로그로 이동합니다. 05.15 101 1
473922 일반 서클투서치 존나 좋아하는 거 같으면 개추 ㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.15 45 0
473921 일반 LLM격차가 이렇게심각하게나노 [2] ㅇㅇ(118.34) 05.15 142 0
473920 일반 이제 믿을건 클로드 라마 뿐이다 ㅇㅇ갤로그로 이동합니다. 05.15 61 0
473919 일반 저 인프라 가지고 조지는 거도 재능 아님? ㅇㅇ갤로그로 이동합니다. 05.15 39 0
473917 일반 구글에게 2번당한 특갤러들 ㅇㅇ(118.34) 05.15 53 0
473916 일반 일리야 개발휴가예정ㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅋ갤로그로 이동합니다. 05.15 92 0
473915 일반 구글 객관화 안되는 거 개 꼴받네 ㅇㅇ(14.36) 05.15 70 1
473914 일반 제미니 개발할때 쓴 글카 뜯어서 제 2의 치타 클로드에 주는게 맞다 [2] 퐁칸8갤로그로 이동합니다. 05.15 99 0
473913 일반 그래..알파폴드는 잘했어 ㅇㅇ.. ㅇㅇ갤로그로 이동합니다. 05.15 111 0
473912 일반 니들이 잘해야 씻팔 gpt5가 빨리 나올 거 아니야 ㅇㅇ(116.123) 05.15 41 0
473911 일반 킹파폴드 재입갤 ㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.15 117 0
473910 일반 이제부터 구글은 치타 아니다 [1] 이세이미야케갤로그로 이동합니다. 05.15 136 1
473909 일반 구글 견제하던 알트만도 보다 졸려서 껐을듯 [1] ㅇㅇ갤로그로 이동합니다. 05.15 72 0
473908 일반 별 거 없을 거라고 생각은 했는데 진짜 해도 해도 너무하네;;; [1] ㅇㅇ갤로그로 이동합니다. 05.15 86 0
473907 일반 아오 뭔 ai 워터마크를 달아 ㅇㅇ갤로그로 이동합니다. 05.15 59 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2