디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 상상력, 탐색, 비판을 통한 LLM의 자기 개선모바일에서 작성

특술람갤로그로 이동합니다. 2024.04.19 13:44:16
조회 345 추천 6 댓글 8
														
7ced8076b5836af43beb98bf06d604034e3d60b328a3fec26a




https://huggingface.co/papers/2404.12253

 


다양한 작업에 대한 LLM(대형 언어 모델)의 뛰어난 기능에도 불구하고 여전히 복잡한 추론 및 계획이 포함된 시나리오로 인해 어려움을 겪고 있습니다. 최근 연구에서는 LLM의 추론 능력을 강화하기 위해 고급 프롬프트 기술과 고품질 데이터를 사용한 미세 조정의 필요성을 제안했습니다. 그러나 이러한 접근 방식은 본질적으로 데이터 가용성과 품질에 의해 제한됩니다. 이를 고려하여 LLM이 결과를 개선하고 자체 평가 보상을 통해 학습할 수 있는 전략을 사용하는 자체 수정 및 자체 학습이 실행 가능한 솔루션으로 등장합니다. 그러나 특히 복잡한 추론 및 계획 작업에서 자체적으로 응답을 개선하는 LLM의 효율성은 여전히 모호합니다. 본 논문에서는 MCTS(Monte Carlo Tree Search)를 LLM과 통합하여 자체 개선 루프를 구축함으로써 추가 주석 없이 LLM의 기능을 향상시키는 LLM의 자체 개선을 위한 AlphaLLM을 소개합니다. AlphaGo의 성공에서 영감을 얻은 AlphaLLM은 데이터 부족, 언어 작업의 광대한 검색 공간, 언어 작업 피드백의 주관적 특성을 포함하여 자기 개선을 위해 MCTS와 LLM을 결합하는 고유한 과제를 해결합니다. AlphaLLM은 신속한 합성 구성요소, 언어 작업에 맞춤화된 효율적인 MCTS 접근 방식, 정확한 피드백을 위한 세 가지 비평 모델로 구성됩니다. 수학적 추론 작업에 대한 실험 결과는 AlphaLLM이 추가 주석 없이 LLM의 성능을 크게 향상시켜 LLM의 자체 개선 가능성을 보여줍니다.
--

이 논문은 대규모 언어 모델(LLM)의 자기 개선을 위한 ALPHALLM 프레임워크를 제안합니다. ALPHALLM은 AlphaGo에서 영감을 받아 Monte Carlo Tree Search (MCTS)와 LLM을 결합하여 데이터 부족, 거대한 탐색 공간, 언어 작업에서의 주관적 피드백 등의 문제를 해결했습니다. 주요 구성 요소는 다음과 같습니다:

1. 상상(Imagination) 컴포넌트 - 새로운 학습 예제로 사용할 프롬프트를 합성
2. ηMCTS - 언어 작업에 특화된 효율적인 탐색 기법  
3. 정확한 피드백을 제공하기 위한 평가(Critic) 모델 - 미래 보상을 예측하는 가치 함수, 노드 품질을 평가하는 프로세스 보상 모델(PRM), 전체 경로를 평가하는 결과 보상 모델(ORM)

수학적 추론 작업에 대한 실험 결과, ALPHALLM은 추가 주석 없이도 LLM의 성능을 크게 향상시킬 수 있음을 보여주었습니다. ηMCTS로 디코딩했을 때는 GPT-4와 견줄만한 성능을 보여, LLM의 자기 개선 가능성을 시사했습니다.

이 연구는 적은 양의 레이블된 데이터로 LLM의 문제 해결 능력을 자기 개선 방식으로 향상시키는 실현 가능한 접근법을 제시하고 있습니다.
자동등록방지

추천 비추천

6

고정닉 3

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
469089 일반 오 말 끊는거 되는데?? ㅇㅇ갤로그로 이동합니다. 05.14 36 0
469088 일반 와 깨쩌네 찐짜 ㅇㅇ(121.124) 05.14 16 0
469087 일반 영화 Her 이네 그냥ㅋㅋㅋ ㅇㅇ(211.177) 05.14 28 0
469086 일반 말도 끊노 ㅋㅋㅋㅋㅋ 이세이미야케갤로그로 이동합니다. 05.14 22 0
469085 일반 미쳤네 ㅇㅇ(110.46) 05.14 6 0
469084 일반 방금 내 여친 찾았으면 개추 ㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.14 28 0
469083 일반 gpt 결제하러 간다 ㅇㅇ갤로그로 이동합니다. 05.14 20 0
469082 일반 다 비켜 내 여친이야 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.14 52 0
469081 일반 유어아ㅏ아ㅏ갘ㅋㅋㅋㅋㅋ시발개섹슼ㅋㅋㅋㅋㅋㅋ ㅇㅇ(121.124) 05.14 14 0
469080 일반 추론, 재귀개선 없음 ㅋㅋㅋ 곡괭이나 들자 ㅇㅇ(112.161) 05.14 19 0
469079 일반 속도 빠르긴 한데 아직 너무 ai목소리 같다... ㅇㅇ갤로그로 이동합니다. 05.14 26 0
469078 일반 팩트 ㅇㅇ(58.29) 05.14 52 0
469077 일반 와 개쩌네ㅠㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(211.230) 05.14 16 0
469075 일반 이전 앱 성능에서 속도만 올린 게 아닌거네 ㅇㅇ(175.206) 05.14 52 0
469074 일반 직업 : 신 ㅇㅇ(220.116) 05.14 51 0
469072 일반 미쳣네 시발 누나 나 싼다 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ ㅇㅇ(121.162) 05.14 30 0
469071 일반 저정도 반응속도면 특붕이들보다 답 빠른듯 ㅋㅋㅋ ㅇㅇ(211.241) 05.14 13 0
469070 일반 아니 빠른거 어쩌라고 ㅋㅋㅋㅋ 지능이 좋아졌냐고 그래서 비닌갤로그로 이동합니다. 05.14 78 0
469068 일반 말한다 도르 ㅋㅋㅋㅋ ㅇㅇ(14.53) 05.14 17 0
469067 일반 그냥 원래 되던 거랑 다를 게 없음ㅋㅋㅋ [1] ㅇㅇ(58.124) 05.14 60 0
469066 일반 야 씨발 레전드다 이건 ㅇㅇ(121.124) 05.14 30 0
469065 일반 저게 원래쓰던 text부분을 생략하고 바로 대답하는거임 ㅇㅇ갤로그로 이동합니다. 05.14 78 0
469064 일반 끼야아아아아아아악!!! ㅇㅇ갤로그로 이동합니다. 05.14 27 0
469063 일반 GPT 구독끊고 스픽 구독하러가라 그말인가 [1] ㅇㅇ갤로그로 이동합니다. 05.14 116 0
469062 일반 찾았다, 내 PS 파트너.. ㅇㅇ(220.65) 05.14 30 0
469061 일반 미친... 응답속도 무엇????????????? ㅇㅇ(121.156) 05.14 42 1
469060 일반 와 씨발 데모 미쳤다 ㅇㅇ갤로그로 이동합니다. 05.14 27 0
469059 일반 와썹 ㅋㅋㅋㅋㅋㅋ 이세이미야케갤로그로 이동합니다. 05.14 21 0
469058 일반 her는 마냥 구라가 아니었네 타비타비갤로그로 이동합니다. 05.14 53 0
469056 일반 와 씨발 숨소리까지 인식한다고? ㅇㅇ(121.124) 05.14 25 0
469055 일반 노동<ㅡ이새끼 세계관최강자임?? ㅇㅇ(1.243) 05.14 25 0
469054 일반 뉴비라 ㅈㅅ 중계 어디서봄?? [4] ㅇㅇ갤로그로 이동합니다. 05.14 67 0
469053 일반 저거 음성 네이티브로 들어가는 거 같냐 아니냐? ㅇㅇ갤로그로 이동합니다. 05.14 31 0
469051 일반 사만다 왔냐??? ㅇㅇ갤로그로 이동합니다. 05.14 19 0
469050 일반 응답 개빠르네 옼ㅋㅋㅋㅋㅋ MoonChild갤로그로 이동합니다. 05.14 28 0
469049 일반 실시간반응/감정 ㅇㅇ(211.230) 05.14 37 0
469048 일반 그래서 시리랑 다른게 뭐임? ㅇㅇ(58.231) 05.14 78 0
469046 일반 라이브 데모 끊기는 거 지랄났네 ㅋㅋㅋ ㅇㅇ(121.128) 05.14 47 0
469045 일반 옴니가 아니라 언니였노 ㄴㄴ 눈나... ㅇㅇ(218.39) 05.14 15 0
469044 일반 와 개쩌는데 특붕이(220.92) 05.14 17 0
469042 일반 her 비스무리한건 맞긴 하네 어브리갤로그로 이동합니다. 05.14 36 0
469041 일반 이거 진짜야? 개쩌는데 진짜??? ㅇㅇ(121.191) 05.14 65 0
469040 일반 이런미친 믿고있었다고!!!! ㅇㅇ(125.180) 05.14 38 0
469039 일반 개쩌는데 헬스토끼갤로그로 이동합니다. 05.14 76 0
469038 일반 현 시간부로 특이점을 선포합니다 ㅇㅇ갤로그로 이동합니다. 05.14 93 0
469037 일반 얘들아 음성이 아니라 비닌갤로그로 이동합니다. 05.14 182 0
469036 일반 와 리얼타임 대화 ㄷㄷ ㅇㅇ(121.124) 05.14 30 0
469035 일반 영어공부하긴 좋겠네 [1] ㅂㄷ(119.70) 05.14 94 1
469034 일반 통화중아니냐? ㅇㅇ갤로그로 이동합니다. 05.14 16 0
469033 일반 Audio to audio 혁명 지리네 이거지 . 애플 개떡상 ㅇㅇ(218.232) 05.14 54 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2