강화 학습을 통해 의사 결정 에이전트로서 대형 비전 언어 모델 미세 조정

흥한갤 139위

기술적 특이점을 주제로 특이점주의자 선형주의자 모두 손에 손잡고 자유롭게 이야기 나누는곳.

매니저

IIlI(sunhc)

부매니저

ㅇㅇ(091n0fu9…)

개설일

2021-06-22

[정보글] 강화 학습을 통해 의사 결정 에이전트로서 대형 비전 언어 모델 미세 조정모바일에서 작성

특술람

2024.05.17 11:17:36

조회 39 추천 0 댓글 0

https://arxiv.org/abs/2405.10292

Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning

Large vision-language models (VLMs) fine-tuned on specialized visual instruction-following data have exhibited impressive language reasoning capabilities across various scenarios. However, this fine-tuning paradigm may not be able to efficiently learn optimal decision-making agents in multi-step goal-directed tasks from interactive environments. To address this challenge, we propose an algorithmic framework that fine-tunes VLMs with reinforcement learning (RL). Specifically, our framework provides a task deion and then prompts the VLM to generate chain-of-thought (CoT) reasoning, enabling the VLM to efficiently explore intermediate reasoning steps that lead to the final text-based action. Next, the open-ended text output is parsed into an executable action to interact with the environment to obtain goal-directed task rewards. Finally, our framework uses these task rewards to fine-tune the entire VLM with RL. Empirically, we demonstrate that our proposed framework enhances the decision-making capabilities of VLM agents across various tasks, enabling 7b models to outperform commercial models such as GPT4-V or Gemini. Furthermore, we find that CoT reasoning is a crucial component for performance improvement, as removing the CoT reasoning results in a significant decrease in the overall performance of our method.

arxiv.org

특수한 시각적 지시에 따른 데이터를 기반으로 미세 조정된 대규모 VLM(비전 언어 모델)은 다양한 시나리오에서 인상적인 언어 추론 기능을 보여주었습니다. 그러나 이러한 미세 조정 패러다임은 대화형 환경의 다단계 목표 지향 작업에서 최적의 의사 결정 에이전트를 효율적으로 학습하지 못할 수 있습니다. 이러한 문제를 해결하기 위해 우리는 강화 학습(RL)을 통해 VLM을 미세 조정하는 알고리즘 프레임워크를 제안합니다. 특히, 우리의 프레임워크는 작업 설명을 제공한 다음 VLM이 생각의 사슬(CoT) 추론을 생성하도록 유도하여 VLM이 최종 텍스트 기반 작업으로 이어지는 중간 추론 단계를 효율적으로 탐색할 수 있도록 합니다. 다음으로, 개방형 텍스트 출력은 실행 가능한 작업으로 구문 분석되어 환경과 상호 작용하여 목표 지향적인 작업 보상을 얻습니다. 마지막으로 우리 프레임워크는 이러한 작업 보상을 사용하여 RL로 전체 VLM을 미세 조정합니다. 경험적으로 우리는 제안된 프레임워크가 다양한 작업 전반에 걸쳐 VLM 에이전트의 의사 결정 기능을 향상시켜 7b 모델이 GPT4-V 또는 Gemini와 같은 상용 모델보다 성능이 우수하다는 것을 보여줍니다. 또한 CoT 추론을 제거하면 우리 방법의 전체 성능이 크게 저하되므로 CoT 추론이 성능 향상을 위한 중요한 구성 요소라는 것을 알았습니다.

고정닉 0

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2864	설문	비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는?	운영자	24/06/03	-	-
17626	일반	이제 특갤 안 함	선갤러(14.43)	16:00	18	2
17624	일반	하 심심한데 안전을 철저하게지키며 발전해볼까?	ㅇㅇ(211.234)	13:26	27	0
17623	일반	특걀 놀리지 마라 [2]	ㅇㅇ(172.226)	12:04	53	3
17622	정보글	Htc부사장 "미성숙한 agi는 위험, 빠르게 asi도약해야해"	특술람	11:59	41	0
17621	정보글	캐나다 총리 "AI 개발 속도를 늦춰선 안 돼"	특술람	11:13	35	1
17620	일반	특갤 저기 없애야돼 [4]	ㅇㅇ(223.33)	10:37	102	3
17619	일반	특갤 이제서야 좀 현실파악한 ㅄ들이 많아졌네 [1]	선갤러(104.28)	10:21	90	6
17618	일반	하버드 인텔리붕이 openai 합류 [4]	특술람	09:35	81	0
17617	일반	Fuck 안전충 [1]	특술람	09:06	68	2
17616	정보글	하사비스 "프로젝트 아스트라는 궁극적인 ai 에이전트" [4]	특술람	07:53	96	3
17615	일반	다니엘 코코타일로가 openai를 그만둔 이유	특술람	07:51	54	1
17614	일반	인공지능생각에 잠이안온다 [1]	c(61.105)	04:49	52	0
17613	일반	앞으로 다가올 디지털아이디에 대해서	shuwa	03:01	49	1
17612	일반	가속이란 있을수없는일임 [2]	ㅇㅇ(211.234)	01:29	156	11
17611	일반	“과학자는 확률을 말할 뿐… 확신에 차 미래 말하는 자 경계해야” [3]	Nost	01:14	128	10
17610	일반	하사비스도 agi 10년이랬음 [5]	선갤러(175.124)	00:23	159	11
17609	일반	scale is all you need [3]	선갤러(125.191)	00:17	102	0
17608	일반	Gpt5를 기다리며 [1]	ㅇㅇ	06.07	68	1
17607	일반	논리 발리니까 댓삭했노 ㅋㅋㅋㅋ컄ㅋㅋ [1]	ㅇㅇ(223.38)	06.07	163	16
17606	일반	GPT-4도 1년 가까이 안전테스트 진행하고 출시 된 건데 [7]	ㅇㅇ(211.234)	06.07	213	4
17605	일반	2025agi외치는 특슬람 특 [1]	ㅇㅇ(223.38)	06.07	137	18
17604	일반	규제따위로 발전이 저해된다는 것이야말로 호들갑 [1]	ㅇㅇ(223.38)	06.07	130	22
17603	일반	가속해야 하는데 [4]	선갤러(125.191)	06.07	95	1
17602	일반	Chatgpt for president 이런거 나올거 같지 안나여 ㅇㅅㅇ [1]	선갤러(122.36)	06.07	50	0
17601	일반	오랜만에 선갤 왔더니 진화충 없어졌네 [1]	ㅇㅇ(118.235)	06.07	106	12
17600	일반	에어팟이 사용자 뇌파 데이터까지 모은다네 [3]	shuwa	06.07	84	1
17599	일반	올해는 로지스틱과 지수의 대결이셈	ㅇㅇ(125.191)	06.07	31	0
17598	일반	브라이언 존슨 "10년 내 현재 사회,문화 규범 사라질 것" [1]	ㅇㅇ(125.191)	06.07	65	0
17597	정보글	미국 캘리포니아주 의회 새 AI규제 법안 발의…실리콘밸리 “혁신 억압”	선갤러(125.191)	06.07	27	0
17596	일반	특슬람들 왜 뭐만하면 숏숏 거리냐 ㅋㅋㅋ	ㅇㅇ(39.7)	06.07	77	15
17594	일반	udio 아름답네여 ㅇㅅㅇ	선갤러(122.36)	06.07	38	0
17593	일반	21세기 새로운 정치축은 친기술 vs 반기술이져 ㅇㅅㅇ	선갤러(122.36)	06.07	26	0
17592	일반	특갤 완장쭝쭝이는 진짜 적이 누군지 몰라여 ㅇㅅㅇ	선갤러(122.36)	06.07	40	2
17590	일반	국내는 너무 후짐 [3]	선갤러(125.191)	06.07	88	2
17589	일반	xi/acc ㅇㅅㅇ [1]	선갤러(122.36)	06.07	55	0
17588	일반	합리주의자들은 agi에 대해 우려 할 필요가 없다	ㅇㅇ(125.191)	06.07	50	0
17587	일반	차세대 모델은 새로운 과학적 발견 가능 [4]	ㅇㅇ(125.191)	06.07	98	1
17586	일반	??? 트기점은 온다....!!	ㅇㅇ(106.101)	06.07	96	18
17585	정보글	MMLU는 끝났나요?	ㅇㅇ(125.191)	06.07	34	0
17584	정보글	ReST-MCTS*: 프로세스 보상 안내 트리검색을 통한 LLM 자체교육	ㅇㅇ(125.191)	06.07	35	1
17583	정보글	구글, ASI 구성요소 마련 주장	ㅇㅇ(211.234)	06.07	51	2
17582	정보글	알리바바 오픈소스 qwen2 mmlu 84 [6]	ㅇㅇ(125.191)	06.07	89	2
17581	정보글	중국판 sora, kling 발표	선갤러(125.191)	06.07	58	1
17580	일반	특슬람들 근들갑 연패 적립 ㅋㅋ [1]	ㅇㅇ(223.38)	06.07	105	17
17579	정보글	GPT-4에서 개념 추출 [2]	선갤러(125.191)	06.07	75	0
17578	일반	agi 그딴건 21세기엔 없다 [2]	선갤러(211.234)	06.07	108	14
17577	일반	2025... [2]	ㅇㅇ	06.07	61	1
17576	일반	Gpt4.5나 [2]	ㅇㅇ	06.07	110	1
17575	일반	gta5 출시할때 저런 트윗 게정으로 어그로 끌어서	선갤러(122.36)	06.07	81	0
17574	일반	wwdc : siri 에이전트 기능 ㄷㄷㄷ [1]	선갤러(121.190)	06.06	89	0