디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보글] 강화 학습을 통해 의사 결정 에이전트로서 대형 비전 언어 모델 미세 조정모바일에서 작성

특술람갤로그로 이동합니다. 2024.05.17 11:17:36
조회 39 추천 0 댓글 0
														

https://arxiv.org/abs/2405.10292

 



특수한 시각적 지시에 따른 데이터를 기반으로 미세 조정된 대규모 VLM(비전 언어 모델)은 다양한 시나리오에서 인상적인 언어 추론 기능을 보여주었습니다. 그러나 이러한 미세 조정 패러다임은 대화형 환경의 다단계 목표 지향 작업에서 최적의 의사 결정 에이전트를 효율적으로 학습하지 못할 수 있습니다. 이러한 문제를 해결하기 위해 우리는 강화 학습(RL)을 통해 VLM을 미세 조정하는 알고리즘 프레임워크를 제안합니다. 특히, 우리의 프레임워크는 작업 설명을 제공한 다음 VLM이 생각의 사슬(CoT) 추론을 생성하도록 유도하여 VLM이 최종 텍스트 기반 작업으로 이어지는 중간 추론 단계를 효율적으로 탐색할 수 있도록 합니다. 다음으로, 개방형 텍스트 출력은 실행 가능한 작업으로 구문 분석되어 환경과 상호 작용하여 목표 지향적인 작업 보상을 얻습니다. 마지막으로 우리 프레임워크는 이러한 작업 보상을 사용하여 RL로 전체 VLM을 미세 조정합니다. 경험적으로 우리는 제안된 프레임워크가 다양한 작업 전반에 걸쳐 VLM 에이전트의 의사 결정 기능을 향상시켜 7b 모델이 GPT4-V 또는 Gemini와 같은 상용 모델보다 성능이 우수하다는 것을 보여줍니다. 또한 CoT 추론을 제거하면 우리 방법의 전체 성능이 크게 저하되므로 CoT 추론이 성능 향상을 위한 중요한 구성 요소라는 것을 알았습니다.

추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2864 설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
17626 일반 이제 특갤 안 함 선갤러(14.43) 16:00 18 2
17624 일반 하 심심한데 안전을 철저하게지키며 발전해볼까? ㅇㅇ(211.234) 13:26 27 0
17623 일반 특걀 놀리지 마라 [2] ㅇㅇ(172.226) 12:04 53 3
17622 정보글 Htc부사장 "미성숙한 agi는 위험, 빠르게 asi도약해야해" 특술람갤로그로 이동합니다. 11:59 41 0
17621 정보글 캐나다 총리 "AI 개발 속도를 늦춰선 안 돼" 특술람갤로그로 이동합니다. 11:13 35 1
17620 일반 특갤 저기 없애야돼 [4] ㅇㅇ(223.33) 10:37 102 3
17619 일반 특갤 이제서야 좀 현실파악한 ㅄ들이 많아졌네 [1] 선갤러(104.28) 10:21 90 6
17618 일반 하버드 인텔리붕이 openai 합류 [4] 특술람갤로그로 이동합니다. 09:35 81 0
17617 일반 Fuck 안전충 [1] 특술람갤로그로 이동합니다. 09:06 68 2
17616 정보글 하사비스 "프로젝트 아스트라는 궁극적인 ai 에이전트" [4] 특술람갤로그로 이동합니다. 07:53 96 3
17615 일반 다니엘 코코타일로가 openai를 그만둔 이유 특술람갤로그로 이동합니다. 07:51 54 1
17614 일반 인공지능생각에 잠이안온다 [1] c(61.105) 04:49 52 0
17613 일반 앞으로 다가올 디지털아이디에 대해서 shuwa갤로그로 이동합니다. 03:01 49 1
17612 일반 가속이란 있을수없는일임 [2] ㅇㅇ(211.234) 01:29 156 11
17611 일반 “과학자는 확률을 말할 뿐… 확신에 차 미래 말하는 자 경계해야” [3] Nost갤로그로 이동합니다. 01:14 128 10
17610 일반 하사비스도 agi 10년이랬음 [5] 선갤러(175.124) 00:23 159 11
17609 일반 scale is all you need [3] 선갤러(125.191) 00:17 102 0
17608 일반 Gpt5를 기다리며 [1] ㅇㅇ갤로그로 이동합니다. 06.07 68 1
17607 일반 논리 발리니까 댓삭했노 ㅋㅋㅋㅋ컄ㅋㅋ [1] ㅇㅇ(223.38) 06.07 163 16
17606 일반 GPT-4도 1년 가까이 안전테스트 진행하고 출시 된 건데 [7] ㅇㅇ(211.234) 06.07 213 4
17605 일반 2025agi외치는 특슬람 특 [1] ㅇㅇ(223.38) 06.07 137 18
17604 일반 규제따위로 발전이 저해된다는 것이야말로 호들갑 [1] ㅇㅇ(223.38) 06.07 130 22
17603 일반 가속해야 하는데 [4] 선갤러(125.191) 06.07 95 1
17602 일반 Chatgpt for president 이런거 나올거 같지 안나여 ㅇㅅㅇ [1] 선갤러(122.36) 06.07 50 0
17601 일반 오랜만에 선갤 왔더니 진화충 없어졌네 [1] ㅇㅇ(118.235) 06.07 106 12
17600 일반 에어팟이 사용자 뇌파 데이터까지 모은다네 [3] shuwa갤로그로 이동합니다. 06.07 84 1
17599 일반 올해는 로지스틱과 지수의 대결이셈 ㅇㅇ(125.191) 06.07 31 0
17598 일반 브라이언 존슨 "10년 내 현재 사회,문화 규범 사라질 것" [1] ㅇㅇ(125.191) 06.07 65 0
17597 정보글 미국 캘리포니아주 의회 새 AI규제 법안 발의…실리콘밸리 “혁신 억압” 선갤러(125.191) 06.07 27 0
17596 일반 특슬람들 왜 뭐만하면 숏숏 거리냐 ㅋㅋㅋ ㅇㅇ(39.7) 06.07 77 15
17594 일반 udio 아름답네여 ㅇㅅㅇ 선갤러(122.36) 06.07 38 0
17593 일반 21세기 새로운 정치축은 친기술 vs 반기술이져 ㅇㅅㅇ 선갤러(122.36) 06.07 26 0
17592 일반 특갤 완장쭝쭝이는 진짜 적이 누군지 몰라여 ㅇㅅㅇ 선갤러(122.36) 06.07 40 2
17590 일반 국내는 너무 후짐 [3] 선갤러(125.191) 06.07 88 2
17589 일반 xi/acc ㅇㅅㅇ [1] 선갤러(122.36) 06.07 55 0
17588 일반 합리주의자들은 agi에 대해 우려 할 필요가 없다 ㅇㅇ(125.191) 06.07 50 0
17587 일반 차세대 모델은 새로운 과학적 발견 가능 [4] ㅇㅇ(125.191) 06.07 98 1
17586 일반 ??? 트기점은 온다....!! ㅇㅇ(106.101) 06.07 96 18
17585 정보글 MMLU는 끝났나요? ㅇㅇ(125.191) 06.07 34 0
17584 정보글 ReST-MCTS*: 프로세스 보상 안내 트리검색을 통한 LLM 자체교육 ㅇㅇ(125.191) 06.07 35 1
17583 정보글 구글, ASI 구성요소 마련 주장 ㅇㅇ(211.234) 06.07 51 2
17582 정보글 알리바바 오픈소스 qwen2 mmlu 84 [6] ㅇㅇ(125.191) 06.07 89 2
17581 정보글 중국판 sora, kling 발표 선갤러(125.191) 06.07 58 1
17580 일반 특슬람들 근들갑 연패 적립 ㅋㅋ [1] ㅇㅇ(223.38) 06.07 105 17
17579 정보글 GPT-4에서 개념 추출 [2] 선갤러(125.191) 06.07 75 0
17578 일반 agi 그딴건 21세기엔 없다 [2] 선갤러(211.234) 06.07 108 14
17577 일반 2025... [2] ㅇㅇ갤로그로 이동합니다. 06.07 61 1
17576 일반 Gpt4.5나 [2] ㅇㅇ갤로그로 이동합니다. 06.07 110 1
17575 일반 gta5 출시할때 저런 트윗 게정으로 어그로 끌어서 선갤러(122.36) 06.07 81 0
17574 일반 wwdc : siri 에이전트 기능 ㄷㄷㄷ [1] 선갤러(121.190) 06.06 89 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2