디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보글] 언어모델은 비밀리에 Q-함수입니다모바일에서 작성

특술람갤로그로 이동합니다. 2024.04.19 10:34:05
조회 64 추천 1 댓글 0
														
7ced8076b5836af43ae798bf06d6040348dccfae5e753ebb1f75





https://arxiv.org/abs/2404.12358

 

From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function

Reinforcement Learning From Human Feedback (RLHF) has been a critical to the success of the latest generation of generative AI models. In response to the complex nature of the classical RLHF pipeline, direct alignment algorithms such as Direct Preference Optimization (DPO) have emerged as an alternative approach. Although DPO solves the same objective as the standard RLHF setup, there is a mismatch between the two approaches. Standard RLHF deploys reinforcement learning in a specific token-level MDP, while DPO is derived as a bandit problem in which the whole response of the model is treated as a single arm. In this work we rectify this difference, first we theoretically show that we can derive DPO in the token-level MDP as a general inverse Q-learning algorithm, which satisfies the Bellman equation. Using our theoretical results, we provide three concrete empirical insights. First, we show that because of its token level interpretation, DPO is able to perform some type of credit assignment. Next, we prove that under the token level formulation, classical search-based algorithms, such as MCTS, which have recently been applied to the language generation space, are equivalent to likelihood-based search on a DPO policy. Empirically we show that a simple beam search yields meaningful improvement over the base DPO policy. Finally, we show how the choice of reference policy causes implicit rewards to decline during training. We conclude by discussing applications of our work, including information elicitation in multi-tun dialogue, reasoning, agentic applications and end-to-end training of multi-model systems.

arxiv.org



이 논문은 DPO 알고리즘 자체를 개선하거나 변경하지는 않습니다. 대신 DPO를 새로운 관점에서 해석하고, 그에 따른 흥미로운 성질들과 활용 가능성을 제시하고 있어요.

기존에는 DPO를 contextual bandit이라는 단순한 문제 상황에 적용할 수 있는 알고리즘으로 여겼어요. 하지만 이 논문에서는 DPO가 사실 MDP(Markov Decision Process)라는 보다 일반적인 문제를 풀 수 있음을 보여줍니다.

MDP는 contextual bandit보다 훨씬 더 넓은 범위의 문제를 포함해요. 따라서 이 논문의 결과는 DPO가 생각보다 더 많은 종류의 문제들을 풀 수 있는 강력한 알고리즘이라는 것을 시사합니다.

또한 이 논문에서는 DPO가 암묵적으로 보상 함수를 학습하고 있으며, 이것이 언어 모델의 출력과 밀접하게 연관되어 있음을 보여줘요. 이는 DPO로 학습된 언어 모델을 해석하고 이해하는 데 중요한 단서가 될 수 있어요.

마지막으로 연구진은 DPO를 사용할 때 초기 정책과 참조 분포의 선택이 학습에 영향을 준다는 사실도 발견했어요. 이는 DPO로 언어 모델을 학습시킬 때 고려해야 할 중요한 요소가 될 수 있겠죠.

즉, 이 논문은 DPO 알고리즘 자체를 직접적으로 발전시키기보다는, DPO를 더욱 잘 이해하고 활용할 수 있는 이론적 토대를 마련했다는 점에서 의미가 있어요. 이는 앞으로 DPO 기반 언어 모델의 성능을 향상시키고, 그 적용 범위를 넓히는 데 기여할 수 있을 거예요.

추천 비추천

1

고정닉 1

0

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2872 설문 연예인 안됐으면 어쩔 뻔, 누가 봐도 천상 연예인은? 운영자 24/06/17 - -
18028 일반 Gpt5 ㅇㅇ갤로그로 이동합니다. 07:28 3 1
18027 일반 특이점은 생각보다 빠를 수도 있다 [1] ㅇㅇ(175.214) 01:41 100 1
18026 정보글 딥마인드 비디오-오디오 연구 발표 [1] 특술람갤로그로 이동합니다. 01:08 51 1
18025 정보글 레이 커즈와일 "우리가 역사상 가장 흥미롭고 중요한 시대에 살고 있다" [1] 특술람갤로그로 이동합니다. 01:01 51 1
18024 정보글 미중 군사패권 ‘AI 사령관’에 달렸다?…中, 워게임서 최고지휘권 부여 특술람갤로그로 이동합니다. 00:55 16 0
18023 정보글 빌게이츠 "교육과 헬스케어 분야에서 AI가 큰 도움을 줄 수 있을 것" 특술람갤로그로 이동합니다. 00:52 22 1
18022 정보글 레이 커즈와일 AI가 물리적 세계를 어떻게 변화시킬 것인가 특술람갤로그로 이동합니다. 00:47 23 1
18021 정보글 Hunter-Torricke "SF소설처럼 보일 수 있는 일들 오고있어" 특술람갤로그로 이동합니다. 00:42 28 1
18020 정보글 이미지 확산 모델을 사용한 즉각적인 3D 인간 아바타 생성 [1] 특술람갤로그로 이동합니다. 06.17 39 0
18019 일반 걍 AI때매 하루하루가 좆같다 [1] ㅇㅇ갤로그로 이동합니다. 06.17 75 0
18018 일반 온우주가 지능으로 가득찬다는게 [1] (61.105) 06.17 49 1
18017 일반 한국계 AI석학 최예진 "AGI, 멀고 먼 길··상식 부족해 AI역설 발 [6] ㅇㅇ갤로그로 이동합니다. 06.17 89 3
18016 정보글 IMF, AI로 인한 불평등 심화에 '심각한 우려' 경고 특술람갤로그로 이동합니다. 06.17 24 1
18015 일반 Gpt5 공개하셈 [4] ㅇㅇ갤로그로 이동합니다. 06.17 54 0
18014 정보글 Gen-3 Alpha 소개: 비디오 생성을 위한 Runway 모델 선갤러(125.191) 06.17 40 2
18013 일반 이갤에 여성분들도 계실텐데 일베용어는 지향하면 안될까? 선갤러(211.184) 06.17 19 0
18012 일반 빨리 오셈 [2] 선갤러(125.191) 06.17 50 0
18011 일반 Gpt5 6월에는 안나오겠지 [3] ㅇㅇ갤로그로 이동합니다. 06.17 45 0
18010 일반 전기에 굶주린 AI...'탄소중립' 구호 속에 "기차는 간다" [1] 인안나갤로그로 이동합니다. 06.17 43 1
18009 일반 나는 레커가 말하는 뇌와 클라우드 연걸이 가장 기대 됨 [1] 인안나갤로그로 이동합니다. 06.17 35 1
18008 일반 Gpt5 드럽게안나오네 [2] ㅇㅇ갤로그로 이동합니다. 06.17 50 0
18007 정보글 엔비디아 CEO "인간형 로봇 2∼3년 내 획기적 발전 있을 것" [1] 선갤러(125.191) 06.17 60 1
18006 일반 나 웨이브에 다운받아서 완몰가에서 쓸려고 저장할려고하다가 [3] 아몬드초콜릿갤로그로 이동합니다. 06.17 44 0
18005 일반 125.191이 하루종일 정보 퍼날라도 세상 안변하네 [2] ㅇㅇ(119.201) 06.17 100 12
18004 일반 레커 피셜 : 이화탄소를 배출하지 않는 재생 에너지를 개발할 것입니다 [2] 선갤러(121.190) 06.17 60 2
18003 일반 사망률 50%, 제2 코로나"…조류인플루엔자 대유행? [4] ㅇㅇ(125.191) 06.17 56 0
18002 일반 다음떡밥 뭐남음?? [7] ㅇㅇ갤로그로 이동합니다. 06.17 75 0
18001 일반 본 찌라시중에 그럴듯 한거 ㅇㅅㅇ [5] 선갤러(122.36) 06.17 102 0
18000 일반 RLHF가 AI의 출력 다양성과 창의력을 떨어뜨림 [4] ㅇㅇ(125.191) 06.17 73 0
17999 일반 ㅇㄱ 찐 정렬임 [2] ㅇㅇ(172.225) 06.17 62 1
17998 일반 그것만 보세여 ㅇㅅㅇ [1] 선갤러(122.36) 06.17 73 0
17997 일반 특슬람 특 [8] 선갤러(211.235) 06.17 308 30
17996 정보글 반기술 단체 안티테크코리아 창설 [2] AntiTechKorea갤로그로 이동합니다. 06.17 63 0
17995 일반 빌 게이츠 "차세대 원자력 발전소 건설에 수십억 달러 투자할 것" 선갤러(125.191) 06.17 48 0
17994 정보글 피터 디아만디스 "이번 10년동안 장수탈출속도 도달" [2] 특술람갤로그로 이동합니다. 06.17 83 0
17993 일반 마구마구 가속해야함 특술람갤로그로 이동합니다. 06.17 43 0
17991 정보글 금붕어처럼 되세요. 외우지 마세요! 생성적 LLM의 암기 완화 특술람갤로그로 이동합니다. 06.17 41 0
17990 정보글 Pandora: 자연어 동작 및 비디오 상태를 갖춘 일반세계모델을 향하여 특술람갤로그로 이동합니다. 06.17 35 0
17989 정보글 아첨과 속임수: 대규모 언어모델에서 보상 조작 조사 ㅇㅇ(125.191) 06.17 25 0
17988 일반 Gpt4o 이미지 풀림 특술람갤로그로 이동합니다. 06.17 93 0
17987 일반 sw시장 점유율 및 부동산 pf대출 ㄷㄷㄷ [1] 선갤러(218.234) 06.17 55 1
17986 일반 AI주권 = 네이버발 애국마케팅 선갤러(125.191) 06.17 68 0
17985 일반 잠이안온다 (61.105) 06.17 72 1
17984 일반 GTP4o답변속도만나만느리냐? [1] ㅂㄱ(112.68) 06.17 69 0
17983 일반 이번 주 기대중 [2] ㅇㅇ(125.191) 06.17 127 2
17982 정보글 이번 주 grok 2.0 발표 예정이셈 [1] ㅇㅇ(125.191) 06.16 113 0
17981 일반 갤 럭 시 = 찐 따 폰 임 [1] 선갤러(222.112) 06.16 50 0
17980 일반 코로나 앓고 약해진 인류… 13종 전염병 한번에 돈다 [1] 선갤러(125.191) 06.16 103 0
17979 일반 난 왜 거지일까 앰생 특슬람들 비웃으면서 엔비 숏 탔는데 [3] ㅇㅇ(118.235) 06.16 164 2
17978 일반 1인1치킨 쉽다는 사람 진짜 먹어본게 맞긴함? [1] 선갤러(221.153) 06.16 65 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2