언어모델은 비밀리에 Q-함수입니다 - 선형주의 미니 갤러리

흥한갤 126위

기술적 특이점을 주제로 특이점주의자 선형주의자 모두 손에 손잡고 자유롭게 이야기 나누는곳.

매니저

IIlI(sunhc)

부매니저

ㅇㅇ(091n0fu9…)

개설일

2021-06-22

[정보글] 언어모델은 비밀리에 Q-함수입니다모바일에서 작성

특술람

2024.04.19 10:34:05

조회 64 추천 1 댓글 0

7ced8076b5836af43ae798bf06d6040348dccfae5e753ebb1f75

https://arxiv.org/abs/2404.12358

From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function

Reinforcement Learning From Human Feedback (RLHF) has been a critical to the success of the latest generation of generative AI models. In response to the complex nature of the classical RLHF pipeline, direct alignment algorithms such as Direct Preference Optimization (DPO) have emerged as an alternative approach. Although DPO solves the same objective as the standard RLHF setup, there is a mismatch between the two approaches. Standard RLHF deploys reinforcement learning in a specific token-level MDP, while DPO is derived as a bandit problem in which the whole response of the model is treated as a single arm. In this work we rectify this difference, first we theoretically show that we can derive DPO in the token-level MDP as a general inverse Q-learning algorithm, which satisfies the Bellman equation. Using our theoretical results, we provide three concrete empirical insights. First, we show that because of its token level interpretation, DPO is able to perform some type of credit assignment. Next, we prove that under the token level formulation, classical search-based algorithms, such as MCTS, which have recently been applied to the language generation space, are equivalent to likelihood-based search on a DPO policy. Empirically we show that a simple beam search yields meaningful improvement over the base DPO policy. Finally, we show how the choice of reference policy causes implicit rewards to decline during training. We conclude by discussing applications of our work, including information elicitation in multi-tun dialogue, reasoning, agentic applications and end-to-end training of multi-model systems.

arxiv.org

이 논문은 DPO 알고리즘 자체를 개선하거나 변경하지는 않습니다. 대신 DPO를 새로운 관점에서 해석하고, 그에 따른 흥미로운 성질들과 활용 가능성을 제시하고 있어요.

기존에는 DPO를 contextual bandit이라는 단순한 문제 상황에 적용할 수 있는 알고리즘으로 여겼어요. 하지만 이 논문에서는 DPO가 사실 MDP(Markov Decision Process)라는 보다 일반적인 문제를 풀 수 있음을 보여줍니다.

MDP는 contextual bandit보다 훨씬 더 넓은 범위의 문제를 포함해요. 따라서 이 논문의 결과는 DPO가 생각보다 더 많은 종류의 문제들을 풀 수 있는 강력한 알고리즘이라는 것을 시사합니다.

또한 이 논문에서는 DPO가 암묵적으로 보상 함수를 학습하고 있으며, 이것이 언어 모델의 출력과 밀접하게 연관되어 있음을 보여줘요. 이는 DPO로 학습된 언어 모델을 해석하고 이해하는 데 중요한 단서가 될 수 있어요.

마지막으로 연구진은 DPO를 사용할 때 초기 정책과 참조 분포의 선택이 학습에 영향을 준다는 사실도 발견했어요. 이는 DPO로 언어 모델을 학습시킬 때 고려해야 할 중요한 요소가 될 수 있겠죠.

즉, 이 논문은 DPO 알고리즘 자체를 직접적으로 발전시키기보다는, DPO를 더욱 잘 이해하고 활용할 수 있는 이론적 토대를 마련했다는 점에서 의미가 있어요. 이는 앞으로 DPO 기반 언어 모델의 성능을 향상시키고, 그 적용 범위를 넓히는 데 기여할 수 있을 거예요.

고정닉 1

원본 첨부파일 1

1000012248.jpg

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2872	설문	연예인 안됐으면 어쩔 뻔, 누가 봐도 천상 연예인은?	운영자	24/06/17	-	-
18028	일반	Gpt5	ㅇㅇ	07:28	3	1
18027	일반	특이점은 생각보다 빠를 수도 있다 [1]	ㅇㅇ(175.214)	01:41	100	1
18026	정보글	딥마인드 비디오-오디오 연구 발표 [1]	특술람	01:08	51	1
18025	정보글	레이 커즈와일 "우리가 역사상 가장 흥미롭고 중요한 시대에 살고 있다" [1]	특술람	01:01	51	1
18024	정보글	미중 군사패권 ‘AI 사령관’에 달렸다?…中, 워게임서 최고지휘권 부여	특술람	00:55	16	0
18023	정보글	빌게이츠 "교육과 헬스케어 분야에서 AI가 큰 도움을 줄 수 있을 것"	특술람	00:52	22	1
18022	정보글	레이 커즈와일 AI가 물리적 세계를 어떻게 변화시킬 것인가	특술람	00:47	23	1
18021	정보글	Hunter-Torricke "SF소설처럼 보일 수 있는 일들 오고있어"	특술람	00:42	28	1
18020	정보글	이미지 확산 모델을 사용한 즉각적인 3D 인간 아바타 생성 [1]	특술람	06.17	39	0
18019	일반	걍 AI때매 하루하루가 좆같다 [1]	ㅇㅇ	06.17	75	0
18018	일반	온우주가 지능으로 가득찬다는게 [1]	락(61.105)	06.17	49	1
18017	일반	한국계 AI석학 최예진 "AGI, 멀고 먼 길··상식 부족해 AI역설 발 [6]	ㅇㅇ	06.17	89	3
18016	정보글	IMF, AI로 인한 불평등 심화에 '심각한 우려' 경고	특술람	06.17	24	1
18015	일반	Gpt5 공개하셈 [4]	ㅇㅇ	06.17	54	0
18014	정보글	Gen-3 Alpha 소개: 비디오 생성을 위한 Runway 모델	선갤러(125.191)	06.17	40	2
18013	일반	이갤에 여성분들도 계실텐데 일베용어는 지향하면 안될까?	선갤러(211.184)	06.17	19	0
18012	일반	빨리 오셈 [2]	선갤러(125.191)	06.17	50	0
18011	일반	Gpt5 6월에는 안나오겠지 [3]	ㅇㅇ	06.17	45	0
18010	일반	전기에 굶주린 AI...'탄소중립' 구호 속에 "기차는 간다" [1]	인안나	06.17	43	1
18009	일반	나는 레커가 말하는 뇌와 클라우드 연걸이 가장 기대 됨 [1]	인안나	06.17	35	1
18008	일반	Gpt5 드럽게안나오네 [2]	ㅇㅇ	06.17	50	0
18007	정보글	엔비디아 CEO "인간형 로봇 2∼3년 내 획기적 발전 있을 것" [1]	선갤러(125.191)	06.17	60	1
18006	일반	나 웨이브에 다운받아서 완몰가에서 쓸려고 저장할려고하다가 [3]	아몬드초콜릿	06.17	44	0
18005	일반	125.191이 하루종일 정보 퍼날라도 세상 안변하네 [2]	ㅇㅇ(119.201)	06.17	100	12
18004	일반	레커 피셜 : 이화탄소를 배출하지 않는 재생 에너지를 개발할 것입니다 [2]	선갤러(121.190)	06.17	60	2
18003	일반	사망률 50%, 제2 코로나"…조류인플루엔자 대유행? [4]	ㅇㅇ(125.191)	06.17	56	0
18002	일반	다음떡밥 뭐남음?? [7]	ㅇㅇ	06.17	75	0
18001	일반	본 찌라시중에 그럴듯 한거 ㅇㅅㅇ [5]	선갤러(122.36)	06.17	102	0
18000	일반	RLHF가 AI의 출력 다양성과 창의력을 떨어뜨림 [4]	ㅇㅇ(125.191)	06.17	73	0
17999	일반	ㅇㄱ 찐 정렬임 [2]	ㅇㅇ(172.225)	06.17	62	1
17998	일반	그것만 보세여 ㅇㅅㅇ [1]	선갤러(122.36)	06.17	73	0
17997	일반	특슬람 특 [8]	선갤러(211.235)	06.17	308	30
17996	정보글	반기술 단체 안티테크코리아 창설 [2]	AntiTechKorea	06.17	63	0
17995	일반	빌 게이츠 "차세대 원자력 발전소 건설에 수십억 달러 투자할 것"	선갤러(125.191)	06.17	48	0
17994	정보글	피터 디아만디스 "이번 10년동안 장수탈출속도 도달" [2]	특술람	06.17	83	0
17993	일반	마구마구 가속해야함	특술람	06.17	43	0
17991	정보글	금붕어처럼 되세요. 외우지 마세요! 생성적 LLM의 암기 완화	특술람	06.17	41	0
17990	정보글	Pandora: 자연어 동작 및 비디오 상태를 갖춘 일반세계모델을 향하여	특술람	06.17	35	0
17989	정보글	아첨과 속임수: 대규모 언어모델에서 보상 조작 조사	ㅇㅇ(125.191)	06.17	25	0
17988	일반	Gpt4o 이미지 풀림	특술람	06.17	93	0
17987	일반	sw시장 점유율 및 부동산 pf대출 ㄷㄷㄷ [1]	선갤러(218.234)	06.17	55	1
17986	일반	AI주권 = 네이버발 애국마케팅	선갤러(125.191)	06.17	68	0
17985	일반	잠이안온다	락(61.105)	06.17	72	1
17984	일반	GTP4o답변속도만나만느리냐? [1]	ㅂㄱ(112.68)	06.17	69	0
17983	일반	이번 주 기대중 [2]	ㅇㅇ(125.191)	06.17	127	2
17982	정보글	이번 주 grok 2.0 발표 예정이셈 [1]	ㅇㅇ(125.191)	06.16	113	0
17981	일반	갤 럭 시 = 찐 따 폰 임 [1]	선갤러(222.112)	06.16	50	0
17980	일반	코로나 앓고 약해진 인류… 13종 전염병 한번에 돈다 [1]	선갤러(125.191)	06.16	103	0
17979	일반	난 왜 거지일까 앰생 특슬람들 비웃으면서 엔비 숏 탔는데 [3]	ㅇㅇ(118.235)	06.16	164	2
17978	일반	1인1치킨 쉽다는 사람 진짜 먹어본게 맞긴함? [1]	선갤러(221.153)	06.16	65	0