디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보글] 언어모델은 비밀리에 Q-함수입니다모바일에서 작성

특술람갤로그로 이동합니다. 2024.04.19 10:34:05
조회 60 추천 1 댓글 0
														
7ced8076b5836af43ae798bf06d6040348dccfae5e753ebb1f75





https://arxiv.org/abs/2404.12358

 

From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function

Reinforcement Learning From Human Feedback (RLHF) has been a critical to the success of the latest generation of generative AI models. In response to the complex nature of the classical RLHF pipeline, direct alignment algorithms such as Direct Preference Optimization (DPO) have emerged as an alternative approach. Although DPO solves the same objective as the standard RLHF setup, there is a mismatch between the two approaches. Standard RLHF deploys reinforcement learning in a specific token-level MDP, while DPO is derived as a bandit problem in which the whole response of the model is treated as a single arm. In this work we rectify this difference, first we theoretically show that we can derive DPO in the token-level MDP as a general inverse Q-learning algorithm, which satisfies the Bellman equation. Using our theoretical results, we provide three concrete empirical insights. First, we show that because of its token level interpretation, DPO is able to perform some type of credit assignment. Next, we prove that under the token level formulation, classical search-based algorithms, such as MCTS, which have recently been applied to the language generation space, are equivalent to likelihood-based search on a DPO policy. Empirically we show that a simple beam search yields meaningful improvement over the base DPO policy. Finally, we show how the choice of reference policy causes implicit rewards to decline during training. We conclude by discussing applications of our work, including information elicitation in multi-tun dialogue, reasoning, agentic applications and end-to-end training of multi-model systems.

arxiv.org



이 논문은 DPO 알고리즘 자체를 개선하거나 변경하지는 않습니다. 대신 DPO를 새로운 관점에서 해석하고, 그에 따른 흥미로운 성질들과 활용 가능성을 제시하고 있어요.

기존에는 DPO를 contextual bandit이라는 단순한 문제 상황에 적용할 수 있는 알고리즘으로 여겼어요. 하지만 이 논문에서는 DPO가 사실 MDP(Markov Decision Process)라는 보다 일반적인 문제를 풀 수 있음을 보여줍니다.

MDP는 contextual bandit보다 훨씬 더 넓은 범위의 문제를 포함해요. 따라서 이 논문의 결과는 DPO가 생각보다 더 많은 종류의 문제들을 풀 수 있는 강력한 알고리즘이라는 것을 시사합니다.

또한 이 논문에서는 DPO가 암묵적으로 보상 함수를 학습하고 있으며, 이것이 언어 모델의 출력과 밀접하게 연관되어 있음을 보여줘요. 이는 DPO로 학습된 언어 모델을 해석하고 이해하는 데 중요한 단서가 될 수 있어요.

마지막으로 연구진은 DPO를 사용할 때 초기 정책과 참조 분포의 선택이 학습에 영향을 준다는 사실도 발견했어요. 이는 DPO로 언어 모델을 학습시킬 때 고려해야 할 중요한 요소가 될 수 있겠죠.

즉, 이 논문은 DPO 알고리즘 자체를 직접적으로 발전시키기보다는, DPO를 더욱 잘 이해하고 활용할 수 있는 이론적 토대를 마련했다는 점에서 의미가 있어요. 이는 앞으로 DPO 기반 언어 모델의 성능을 향상시키고, 그 적용 범위를 넓히는 데 기여할 수 있을 거예요.

추천 비추천

1

고정닉 1

0

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
16726 일반 처음으로 MathVista에서 인간을 능가한 gpt4o 특술람갤로그로 이동합니다. 05.14 79 2
16725 일반 선형충들아 ㅇㅇ(125.191) 05.14 93 0
16724 일반 걍 뒤지기 직전까지도 큰거온다고할듯 ㅇㅇ(211.234) 05.14 125 15
16723 일반 근들갑 > 까보면 옆그레이드 그냥 무한반복임 [1] ㅇㅇ(211.234) 05.14 205 16
16722 일반 애플 행사, ai기반 윈도우12 앞두고 있어서 [2] 선갤러(117.111) 05.14 101 0
16721 일반 선형충 쳐맞고 특술람갤로그로 이동합니다. 05.14 69 1
16720 일반 이럴줄알았다 ㅇㅇ(14.42) 05.14 64 5
16719 일반 선형충인데 맨날 이기는것도 지겹네요 [1] ㅇㅇ(211.234) 05.14 192 15
16718 일반 이번발표로 추론, 장기기억 뭐 드라마틱하게 개선된거 있음? [2] 선갤러(117.111) 05.14 99 3
16717 정보글 지미애플 "정신 못차린 선형충 곧 더 맞을 것" 특술람갤로그로 이동합니다. 05.14 90 1
16716 일반 Gpt-4o는 발전된 멀티모달 모델임 특술람갤로그로 이동합니다. 05.14 67 1
16715 일반 특갤 특이쭝쭝이들은 가자 특이점주의자에여 ㅇㅅㅇ 선갤러(122.36) 05.14 56 1
16714 일반 밤사이 특이점 안온거냐? [2] 병신®갤로그로 이동합니다. 05.14 78 2
16713 정보글 Gpt-4o RealWorldQA 75.4 달성 특술람갤로그로 이동합니다. 05.14 57 1
16712 일반 특갤에는 경게선 지능 장애인이 만은듯여 ㅇㅅㅇ 선갤러(122.36) 05.14 68 2
16711 일반 어잿든 alt-맨이 제일 혁신 선봉장에 잇는건 증명됫져 ㅇㅅㅇ 선갤러(122.36) 05.14 54 3
16710 일반 조선 망하고나서 특이점 오는 그림이 그려진다 [1] ㅇㅇ(14.42) 05.14 61 0
16709 일반 나 잠자서못봤는데 [3] ㅇㅇ갤로그로 이동합니다. 05.14 77 1
16708 일반 gta45 소감 ㅇㅅㅇ 선갤러(122.36) 05.14 95 0
16707 일반 특슬람인데 이번발표보고 선형충됐으면 개추ㅋㅋㅋ [1] ㅇㅇ(211.234) 05.14 284 23
16706 일반 신기하게 특슬람들은 공격적인 애들이 너무 많음 ㅇㅇ(220.116) 05.14 94 13
16704 일반 오에아 이새끼들 마소짓거리 따라하네 [1] 선갤러(59.16) 05.14 100 0
16703 일반 몇주뒤 예상 [1] ㅇㅇ(223.38) 05.14 85 3
16702 일반 그래서 gpt5는 언제 나옴? ㅇㅇ(180.66) 05.14 55 0
16701 일반 역시 줫도 별거없네 선갤러(223.38) 05.14 83 1
16700 일반 솔직히 이제 200년내로 특이점안올것같으면 개추 ㅇㅇ(211.234) 05.14 220 18
16697 일반 GPT-5 아라키스의 체크포인트 버전일수도 [1] 특술람갤로그로 이동합니다. 05.14 81 0
16696 일반 선형충인데 오늘 발표보고 특슬람됐으면 개추 ㅋㅋㅋㅋ [1] ㅇㅇ(118.235) 05.14 172 7
16695 일반 Gpt-4o MMMU 69 달성 [5] ㅇㅇ(222.96) 05.14 217 4
16694 정보글 OpenAI 공동창업자 "1~2년 안에 전체 코딩 프로젝트 가능" ㅇㅇ(125.191) 05.14 130 10
16693 정보글 알트만 gpt4o에 대한 생각 ㅇㅇ(125.191) 05.14 117 4
16692 일반 진짜 이번 발표 너무 실망스럽다 ㅠㅠ [4] ㅇㅇ(112.173) 05.14 406 18
16691 일반 ㅋㅋㅋㅋ 선형충들 방 빼도록 [2] ㅇㅇ(118.235) 05.14 108 3
16690 정보글 새로운 음성모드 플러스 사용자에게 몇 주 안 제공 선갤러(125.191) 05.14 53 0
16689 일반 그렉브록만 gpt4o 특술람갤로그로 이동합니다. 05.14 54 1
16686 일반 에이전트 나오는중 [1] 특술람갤로그로 이동합니다. 05.14 90 0
16685 일반 선형충 초토화 [1] 특술람갤로그로 이동합니다. 05.14 138 0
16684 일반 Her 나오는중 특술람갤로그로 이동합니다. 05.14 47 0
16683 일반 특붕이들 멸망 ㅋㅋㅋㅋ [1] ㅇㅇ(220.116) 05.14 210 12
16681 정보글 gpt-4o는 goodgpt-2 sota [1] 특술람갤로그로 이동합니다. 05.14 89 1
16679 일반 알트만 1분 안에 스트림 가능 특술람갤로그로 이동합니다. 05.14 34 0
16676 일반 OpenAI UFO를 리버스 엔지니어링한 적이 있나요? [1] 특술람갤로그로 이동합니다. 05.14 37 0
16675 일반 지미애플 "gpt4가 출시되기 전에 Omni에 액세스" 특술람갤로그로 이동합니다. 05.14 108 0
16674 일반 gpt-4o [1] 특술람갤로그로 이동합니다. 05.14 57 0
16673 일반 구글 io까지 하루만 더 ! [1] 특술람갤로그로 이동합니다. 05.14 55 0
16672 일반 oai 연구원 "여러분은 예상보다 8x 더 얻을 것" [2] 특술람갤로그로 이동합니다. 05.14 86 1
16671 일반 하.. 또 다시 순수진화로 돌아간다.. NEMO갤로그로 이동합니다. 05.14 49 0
16670 일반 특이점 드가자~ 선갤러(122.34) 05.14 59 0
16669 정보글 거대 기술 기업은 소규모 AI 연구소의 투자자였습니다. 특술람갤로그로 이동합니다. 05.14 38 0
16668 일반 특갤애들 개웃기네 ㅋㅋㅋ ㅇㅇ(106.101) 05.14 157 12
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2