디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보글] 상상력, 탐색, 비판을 통한 LLM의 자가 개선모바일에서 작성

특술람갤로그로 이동합니다. 2024.04.19 13:43:46
조회 83 추천 1 댓글 0
														
7ced8076b5836af43beb98bf06d604034e3d60b328a3fec26a





https://huggingface.co/papers/2404.12253

 



다양한 작업에 대한 LLM(대형 언어 모델)의 뛰어난 기능에도 불구하고 여전히 복잡한 추론 및 계획이 포함된 시나리오로 인해 어려움을 겪고 있습니다. 최근 연구에서는 LLM의 추론 능력을 강화하기 위해 고급 프롬프트 기술과 고품질 데이터를 사용한 미세 조정의 필요성을 제안했습니다. 그러나 이러한 접근 방식은 본질적으로 데이터 가용성과 품질에 의해 제한됩니다. 이를 고려하여 LLM이 결과를 개선하고 자체 평가 보상을 통해 학습할 수 있는 전략을 사용하는 자체 수정 및 자체 학습이 실행 가능한 솔루션으로 등장합니다. 그러나 특히 복잡한 추론 및 계획 작업에서 자체적으로 응답을 개선하는 LLM의 효율성은 여전히 모호합니다. 본 논문에서는 MCTS(Monte Carlo Tree Search)를 LLM과 통합하여 자체 개선 루프를 구축함으로써 추가 주석 없이 LLM의 기능을 향상시키는 LLM의 자체 개선을 위한 AlphaLLM을 소개합니다. AlphaGo의 성공에서 영감을 얻은 AlphaLLM은 데이터 부족, 언어 작업의 광대한 검색 공간, 언어 작업 피드백의 주관적 특성을 포함하여 자기 개선을 위해 MCTS와 LLM을 결합하는 고유한 과제를 해결합니다. AlphaLLM은 신속한 합성 구성요소, 언어 작업에 맞춤화된 효율적인 MCTS 접근 방식, 정확한 피드백을 위한 세 가지 비평 모델로 구성됩니다. 수학적 추론 작업에 대한 실험 결과는 AlphaLLM이 추가 주석 없이 LLM의 성능을 크게 향상시켜 LLM의 자체 개선 가능성을 보여줍니다.
--
이 논문은 대규모 언어 모델(LLM)의 자기 개선을 위한 ALPHALLM 프레임워크를 제안합니다. ALPHALLM은 AlphaGo에서 영감을 받아 Monte Carlo Tree Search (MCTS)와 LLM을 결합하여 데이터 부족, 거대한 탐색 공간, 언어 작업에서의 주관적 피드백 등의 문제를 해결했습니다. 주요 구성 요소는 다음과 같습니다:
1. 상상(Imagination) 컴포넌트 - 새로운 학습 예제로 사용할 프롬프트를 합성

2. ηMCTS - 언어 작업에 특화된 효율적인 탐색 기법  

3. 정확한 피드백을 제공하기 위한 평가(Critic) 모델 - 미래 보상을 예측하는 가치 함수, 노드 품질을 평가하는 프로세스 보상 모델(PRM), 전체 경로를 평가하는 결과 보상 모델(ORM)
수학적 추론 작업에 대한 실험 결과, ALPHALLM은 추가 주석 없이도 LLM의 성능을 크게 향상시킬 수 있음을 보여주었습니다. ηMCTS로 디코딩했을 때는 GPT-4와 견줄만한 성능을 보여, LLM의 자기 개선 가능성을 시사했습니다.
이 연구는 적은 양의 레이블된 데이터로 LLM의 문제 해결 능력을 자기 개선 방식으로 향상시키는 실현 가능한 접근법을 제시하고 있습니다.

7ced8076b5836af43be998bf06d60403240b912ae4e79675c980

추천 비추천

1

고정닉 0

0

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
16737 일반 5년뒤에도 e/acc주의자로 남아잇을 사람은 저뿐이져 ㅇㅅㅇ [1] 선갤러(122.36) 05.14 69 0
16736 일반 이번 발표보고 특슬람에서 돌아섰다 ㅇㅇ [1] ㅇㅇ(223.62) 05.14 243 17
16735 일반 특갤은 특이점주의자가 아니에여 ㅇㅅㅇ 선갤러(122.36) 05.14 101 5
16734 일반 선형충 또 개같이 승리 선갤러(211.46) 05.14 186 13
16733 일반 gpt-4o 변수 바인딩 [2] ㅇㅇ(125.191) 05.14 95 1
16732 정보글 보이저엑스 남세동 대표 gpt-4o 반응이라함 [3] ㅇㅇ(125.191) 05.14 173 0
16731 일반 이쯤되면 선형이 안되는게 이해안되는데 ㅋㅋ ㅇㅇ(221.166) 05.14 166 11
16729 일반 지미 애플이란 넘은 이름을 지미 퍼시몬으로 바꿔야 함. [1] 병신®갤로그로 이동합니다. 05.14 88 2
16728 정보글 AI, ‘보고 듣고 말하는’ 능력까지…GPT-4o 출시 ㅇㅇ(125.191) 05.14 77 1
16727 일반 상기하셈 특술람갤로그로 이동합니다. 05.14 74 1
16726 일반 처음으로 MathVista에서 인간을 능가한 gpt4o 특술람갤로그로 이동합니다. 05.14 79 2
16725 일반 선형충들아 ㅇㅇ(125.191) 05.14 93 0
16724 일반 걍 뒤지기 직전까지도 큰거온다고할듯 ㅇㅇ(211.234) 05.14 126 15
16723 일반 근들갑 > 까보면 옆그레이드 그냥 무한반복임 [1] ㅇㅇ(211.234) 05.14 206 16
16722 일반 애플 행사, ai기반 윈도우12 앞두고 있어서 [2] 선갤러(117.111) 05.14 101 0
16721 일반 선형충 쳐맞고 특술람갤로그로 이동합니다. 05.14 70 1
16720 일반 이럴줄알았다 ㅇㅇ(14.42) 05.14 65 5
16719 일반 선형충인데 맨날 이기는것도 지겹네요 [1] ㅇㅇ(211.234) 05.14 193 15
16718 일반 이번발표로 추론, 장기기억 뭐 드라마틱하게 개선된거 있음? [2] 선갤러(117.111) 05.14 99 3
16717 정보글 지미애플 "정신 못차린 선형충 곧 더 맞을 것" 특술람갤로그로 이동합니다. 05.14 90 1
16716 일반 Gpt-4o는 발전된 멀티모달 모델임 특술람갤로그로 이동합니다. 05.14 67 1
16715 일반 특갤 특이쭝쭝이들은 가자 특이점주의자에여 ㅇㅅㅇ 선갤러(122.36) 05.14 56 1
16714 일반 밤사이 특이점 안온거냐? [2] 병신®갤로그로 이동합니다. 05.14 78 2
16713 정보글 Gpt-4o RealWorldQA 75.4 달성 특술람갤로그로 이동합니다. 05.14 57 1
16712 일반 특갤에는 경게선 지능 장애인이 만은듯여 ㅇㅅㅇ 선갤러(122.36) 05.14 68 2
16711 일반 어잿든 alt-맨이 제일 혁신 선봉장에 잇는건 증명됫져 ㅇㅅㅇ 선갤러(122.36) 05.14 54 3
16710 일반 조선 망하고나서 특이점 오는 그림이 그려진다 [1] ㅇㅇ(14.42) 05.14 61 0
16709 일반 나 잠자서못봤는데 [3] ㅇㅇ갤로그로 이동합니다. 05.14 77 1
16708 일반 gta45 소감 ㅇㅅㅇ 선갤러(122.36) 05.14 95 0
16707 일반 특슬람인데 이번발표보고 선형충됐으면 개추ㅋㅋㅋ [1] ㅇㅇ(211.234) 05.14 285 23
16706 일반 신기하게 특슬람들은 공격적인 애들이 너무 많음 ㅇㅇ(220.116) 05.14 94 13
16704 일반 오에아 이새끼들 마소짓거리 따라하네 [1] 선갤러(59.16) 05.14 100 0
16703 일반 몇주뒤 예상 [1] ㅇㅇ(223.38) 05.14 85 3
16702 일반 그래서 gpt5는 언제 나옴? ㅇㅇ(180.66) 05.14 55 0
16701 일반 역시 줫도 별거없네 선갤러(223.38) 05.14 83 1
16700 일반 솔직히 이제 200년내로 특이점안올것같으면 개추 ㅇㅇ(211.234) 05.14 220 18
16697 일반 GPT-5 아라키스의 체크포인트 버전일수도 [1] 특술람갤로그로 이동합니다. 05.14 81 0
16696 일반 선형충인데 오늘 발표보고 특슬람됐으면 개추 ㅋㅋㅋㅋ [1] ㅇㅇ(118.235) 05.14 172 7
16695 일반 Gpt-4o MMMU 69 달성 [5] ㅇㅇ(222.96) 05.14 218 4
16694 정보글 OpenAI 공동창업자 "1~2년 안에 전체 코딩 프로젝트 가능" ㅇㅇ(125.191) 05.14 130 10
16693 정보글 알트만 gpt4o에 대한 생각 ㅇㅇ(125.191) 05.14 117 4
16692 일반 진짜 이번 발표 너무 실망스럽다 ㅠㅠ [4] ㅇㅇ(112.173) 05.14 406 18
16691 일반 ㅋㅋㅋㅋ 선형충들 방 빼도록 [2] ㅇㅇ(118.235) 05.14 108 3
16690 정보글 새로운 음성모드 플러스 사용자에게 몇 주 안 제공 선갤러(125.191) 05.14 53 0
16689 일반 그렉브록만 gpt4o 특술람갤로그로 이동합니다. 05.14 54 1
16686 일반 에이전트 나오는중 [1] 특술람갤로그로 이동합니다. 05.14 90 0
16685 일반 선형충 초토화 [1] 특술람갤로그로 이동합니다. 05.14 138 0
16684 일반 Her 나오는중 특술람갤로그로 이동합니다. 05.14 47 0
16683 일반 특붕이들 멸망 ㅋㅋㅋㅋ [1] ㅇㅇ(220.116) 05.14 210 12
16681 정보글 gpt-4o는 goodgpt-2 sota [1] 특술람갤로그로 이동합니다. 05.14 89 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2