언어모델은 비밀리에 Q-함수입니다 - 선형주의 미니 갤러리

흥한갤 89위

기술적 특이점을 주제로 특이점주의자 선형주의자 모두 손에 손잡고 자유롭게 이야기 나누는곳.

매니저

IIlI(sunhc)

부매니저

부재중입니다.(091n0fu9y77a)

개설일

2021-06-22

[정보글] 언어모델은 비밀리에 Q-함수입니다모바일에서 작성

특술람

2024.04.19 10:34:05

조회 60 추천 1 댓글 0

7ced8076b5836af43ae798bf06d6040348dccfae5e753ebb1f75

https://arxiv.org/abs/2404.12358

From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function

Reinforcement Learning From Human Feedback (RLHF) has been a critical to the success of the latest generation of generative AI models. In response to the complex nature of the classical RLHF pipeline, direct alignment algorithms such as Direct Preference Optimization (DPO) have emerged as an alternative approach. Although DPO solves the same objective as the standard RLHF setup, there is a mismatch between the two approaches. Standard RLHF deploys reinforcement learning in a specific token-level MDP, while DPO is derived as a bandit problem in which the whole response of the model is treated as a single arm. In this work we rectify this difference, first we theoretically show that we can derive DPO in the token-level MDP as a general inverse Q-learning algorithm, which satisfies the Bellman equation. Using our theoretical results, we provide three concrete empirical insights. First, we show that because of its token level interpretation, DPO is able to perform some type of credit assignment. Next, we prove that under the token level formulation, classical search-based algorithms, such as MCTS, which have recently been applied to the language generation space, are equivalent to likelihood-based search on a DPO policy. Empirically we show that a simple beam search yields meaningful improvement over the base DPO policy. Finally, we show how the choice of reference policy causes implicit rewards to decline during training. We conclude by discussing applications of our work, including information elicitation in multi-tun dialogue, reasoning, agentic applications and end-to-end training of multi-model systems.

arxiv.org

이 논문은 DPO 알고리즘 자체를 개선하거나 변경하지는 않습니다. 대신 DPO를 새로운 관점에서 해석하고, 그에 따른 흥미로운 성질들과 활용 가능성을 제시하고 있어요.

기존에는 DPO를 contextual bandit이라는 단순한 문제 상황에 적용할 수 있는 알고리즘으로 여겼어요. 하지만 이 논문에서는 DPO가 사실 MDP(Markov Decision Process)라는 보다 일반적인 문제를 풀 수 있음을 보여줍니다.

MDP는 contextual bandit보다 훨씬 더 넓은 범위의 문제를 포함해요. 따라서 이 논문의 결과는 DPO가 생각보다 더 많은 종류의 문제들을 풀 수 있는 강력한 알고리즘이라는 것을 시사합니다.

또한 이 논문에서는 DPO가 암묵적으로 보상 함수를 학습하고 있으며, 이것이 언어 모델의 출력과 밀접하게 연관되어 있음을 보여줘요. 이는 DPO로 학습된 언어 모델을 해석하고 이해하는 데 중요한 단서가 될 수 있어요.

마지막으로 연구진은 DPO를 사용할 때 초기 정책과 참조 분포의 선택이 학습에 영향을 준다는 사실도 발견했어요. 이는 DPO로 언어 모델을 학습시킬 때 고려해야 할 중요한 요소가 될 수 있겠죠.

즉, 이 논문은 DPO 알고리즘 자체를 직접적으로 발전시키기보다는, DPO를 더욱 잘 이해하고 활용할 수 있는 이론적 토대를 마련했다는 점에서 의미가 있어요. 이는 앞으로 DPO 기반 언어 모델의 성능을 향상시키고, 그 적용 범위를 넓히는 데 기여할 수 있을 거예요.

고정닉 1

원본 첨부파일 1

1000012248.jpg

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2861	설문	어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는?	운영자	24/05/20	-	-
16726	일반	처음으로 MathVista에서 인간을 능가한 gpt4o	특술람	05.14	79	2
16725	일반	선형충들아	ㅇㅇ(125.191)	05.14	93	0
16724	일반	걍 뒤지기 직전까지도 큰거온다고할듯	ㅇㅇ(211.234)	05.14	125	15
16723	일반	근들갑 > 까보면 옆그레이드 그냥 무한반복임 [1]	ㅇㅇ(211.234)	05.14	205	16
16722	일반	애플 행사, ai기반 윈도우12 앞두고 있어서 [2]	선갤러(117.111)	05.14	101	0
16721	일반	선형충 쳐맞고	특술람	05.14	69	1
16720	일반	이럴줄알았다	ㅇㅇ(14.42)	05.14	64	5
16719	일반	선형충인데 맨날 이기는것도 지겹네요 [1]	ㅇㅇ(211.234)	05.14	192	15
16718	일반	이번발표로 추론, 장기기억 뭐 드라마틱하게 개선된거 있음? [2]	선갤러(117.111)	05.14	99	3
16717	정보글	지미애플 "정신 못차린 선형충 곧 더 맞을 것"	특술람	05.14	90	1
16716	일반	Gpt-4o는 발전된 멀티모달 모델임	특술람	05.14	67	1
16715	일반	특갤 특이쭝쭝이들은 가자 특이점주의자에여 ㅇㅅㅇ	선갤러(122.36)	05.14	56	1
16714	일반	밤사이 특이점 안온거냐? [2]	병신®	05.14	78	2
16713	정보글	Gpt-4o RealWorldQA 75.4 달성	특술람	05.14	57	1
16712	일반	특갤에는 경게선 지능 장애인이 만은듯여 ㅇㅅㅇ	선갤러(122.36)	05.14	68	2
16711	일반	어잿든 alt-맨이 제일 혁신 선봉장에 잇는건 증명됫져 ㅇㅅㅇ	선갤러(122.36)	05.14	54	3
16710	일반	조선 망하고나서 특이점 오는 그림이 그려진다 [1]	ㅇㅇ(14.42)	05.14	61	0
16709	일반	나 잠자서못봤는데 [3]	ㅇㅇ	05.14	77	1
16708	일반	gta45 소감 ㅇㅅㅇ	선갤러(122.36)	05.14	95	0
16707	일반	특슬람인데 이번발표보고 선형충됐으면 개추ㅋㅋㅋ [1]	ㅇㅇ(211.234)	05.14	284	23
16706	일반	신기하게 특슬람들은 공격적인 애들이 너무 많음	ㅇㅇ(220.116)	05.14	94	13
16704	일반	오에아 이새끼들 마소짓거리 따라하네 [1]	선갤러(59.16)	05.14	100	0
16703	일반	몇주뒤 예상 [1]	ㅇㅇ(223.38)	05.14	85	3
16702	일반	그래서 gpt5는 언제 나옴?	ㅇㅇ(180.66)	05.14	55	0
16701	일반	역시 줫도 별거없네	선갤러(223.38)	05.14	83	1
16700	일반	솔직히 이제 200년내로 특이점안올것같으면 개추	ㅇㅇ(211.234)	05.14	220	18
16697	일반	GPT-5 아라키스의 체크포인트 버전일수도 [1]	특술람	05.14	81	0
16696	일반	선형충인데 오늘 발표보고 특슬람됐으면 개추 ㅋㅋㅋㅋ [1]	ㅇㅇ(118.235)	05.14	172	7
16695	일반	Gpt-4o MMMU 69 달성 [5]	ㅇㅇ(222.96)	05.14	217	4
16694	정보글	OpenAI 공동창업자 "1~2년 안에 전체 코딩 프로젝트 가능"	ㅇㅇ(125.191)	05.14	130	10
16693	정보글	알트만 gpt4o에 대한 생각	ㅇㅇ(125.191)	05.14	117	4
16692	일반	진짜 이번 발표 너무 실망스럽다 ㅠㅠ [4]	ㅇㅇ(112.173)	05.14	406	18
16691	일반	ㅋㅋㅋㅋ 선형충들 방 빼도록 [2]	ㅇㅇ(118.235)	05.14	108	3
16690	정보글	새로운 음성모드 플러스 사용자에게 몇 주 안 제공	선갤러(125.191)	05.14	53	0
16689	일반	그렉브록만 gpt4o	특술람	05.14	54	1
16686	일반	에이전트 나오는중 [1]	특술람	05.14	90	0
16685	일반	선형충 초토화 [1]	특술람	05.14	138	0
16684	일반	Her 나오는중	특술람	05.14	47	0
16683	일반	특붕이들 멸망 ㅋㅋㅋㅋ [1]	ㅇㅇ(220.116)	05.14	210	12
16681	정보글	gpt-4o는 goodgpt-2 sota [1]	특술람	05.14	89	1
16679	일반	알트만 1분 안에 스트림 가능	특술람	05.14	34	0
16676	일반	OpenAI UFO를 리버스 엔지니어링한 적이 있나요? [1]	특술람	05.14	37	0
16675	일반	지미애플 "gpt4가 출시되기 전에 Omni에 액세스"	특술람	05.14	108	0
16674	일반	gpt-4o [1]	특술람	05.14	57	0
16673	일반	구글 io까지 하루만 더 ! [1]	특술람	05.14	55	0
16672	일반	oai 연구원 "여러분은 예상보다 8x 더 얻을 것" [2]	특술람	05.14	86	1
16671	일반	하.. 또 다시 순수진화로 돌아간다..	NEMO	05.14	49	0
16670	일반	특이점 드가자~	선갤러(122.34)	05.14	59	0
16669	정보글	거대 기술 기업은 소규모 AI 연구소의 투자자였습니다.	특술람	05.14	38	0
16668	일반	특갤애들 개웃기네 ㅋㅋㅋ	ㅇㅇ(106.101)	05.14	157	12