디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 상상력, 탐색, 비판을 통한 LLM의 자기 개선모바일에서 작성

특술람갤로그로 이동합니다. 2024.04.19 13:44:16
조회 344 추천 6 댓글 8
														
7ced8076b5836af43beb98bf06d604034e3d60b328a3fec26a




https://huggingface.co/papers/2404.12253

 


다양한 작업에 대한 LLM(대형 언어 모델)의 뛰어난 기능에도 불구하고 여전히 복잡한 추론 및 계획이 포함된 시나리오로 인해 어려움을 겪고 있습니다. 최근 연구에서는 LLM의 추론 능력을 강화하기 위해 고급 프롬프트 기술과 고품질 데이터를 사용한 미세 조정의 필요성을 제안했습니다. 그러나 이러한 접근 방식은 본질적으로 데이터 가용성과 품질에 의해 제한됩니다. 이를 고려하여 LLM이 결과를 개선하고 자체 평가 보상을 통해 학습할 수 있는 전략을 사용하는 자체 수정 및 자체 학습이 실행 가능한 솔루션으로 등장합니다. 그러나 특히 복잡한 추론 및 계획 작업에서 자체적으로 응답을 개선하는 LLM의 효율성은 여전히 모호합니다. 본 논문에서는 MCTS(Monte Carlo Tree Search)를 LLM과 통합하여 자체 개선 루프를 구축함으로써 추가 주석 없이 LLM의 기능을 향상시키는 LLM의 자체 개선을 위한 AlphaLLM을 소개합니다. AlphaGo의 성공에서 영감을 얻은 AlphaLLM은 데이터 부족, 언어 작업의 광대한 검색 공간, 언어 작업 피드백의 주관적 특성을 포함하여 자기 개선을 위해 MCTS와 LLM을 결합하는 고유한 과제를 해결합니다. AlphaLLM은 신속한 합성 구성요소, 언어 작업에 맞춤화된 효율적인 MCTS 접근 방식, 정확한 피드백을 위한 세 가지 비평 모델로 구성됩니다. 수학적 추론 작업에 대한 실험 결과는 AlphaLLM이 추가 주석 없이 LLM의 성능을 크게 향상시켜 LLM의 자체 개선 가능성을 보여줍니다.
--

이 논문은 대규모 언어 모델(LLM)의 자기 개선을 위한 ALPHALLM 프레임워크를 제안합니다. ALPHALLM은 AlphaGo에서 영감을 받아 Monte Carlo Tree Search (MCTS)와 LLM을 결합하여 데이터 부족, 거대한 탐색 공간, 언어 작업에서의 주관적 피드백 등의 문제를 해결했습니다. 주요 구성 요소는 다음과 같습니다:

1. 상상(Imagination) 컴포넌트 - 새로운 학습 예제로 사용할 프롬프트를 합성
2. ηMCTS - 언어 작업에 특화된 효율적인 탐색 기법  
3. 정확한 피드백을 제공하기 위한 평가(Critic) 모델 - 미래 보상을 예측하는 가치 함수, 노드 품질을 평가하는 프로세스 보상 모델(PRM), 전체 경로를 평가하는 결과 보상 모델(ORM)

수학적 추론 작업에 대한 실험 결과, ALPHALLM은 추가 주석 없이도 LLM의 성능을 크게 향상시킬 수 있음을 보여주었습니다. ηMCTS로 디코딩했을 때는 GPT-4와 견줄만한 성능을 보여, LLM의 자기 개선 가능성을 시사했습니다.

이 연구는 적은 양의 레이블된 데이터로 LLM의 문제 해결 능력을 자기 개선 방식으로 향상시키는 실현 가능한 접근법을 제시하고 있습니다.
자동등록방지

추천 비추천

6

고정닉 3

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
469972 일반 어학 관련 직업이 멸망이래 ㅋㅋ [1] ㅇㅇ(180.224) 05.14 172 0
469971 일반 걍 유료로 하면 안되나? [1] ㅇㅇ(125.137) 05.14 68 0
469969 일반 겨울이다.. [1] 무잇갤로그로 이동합니다. 05.14 66 0
469968 일반 오픈소스진영에서도 저런게 나와야 [3] 생각하지않는사람갤로그로 이동합니다. 05.14 88 0
469967 일반 쫌팽이 Tim Cook이 괜히 계약한게 아니네 ㅇㅇ(218.232) 05.14 58 0
469966 일반 무료 사용제한있고 유료 무료의5배ㄱㄴ ㅇㅇ(210.222) 05.14 86 0
469964 일반 팩트) 한국어판 특징 ㅇㅇ(121.131) 05.14 191 0
469963 일반 휴대용 AI 비서 언제 나오냐 ㅇㅇ(49.169) 05.14 29 0
469962 일반 ㅅㅂ 이러면 학교에서 오픈북하는게 무슨 의미가 있냐 [2] ㅇㅇ(175.213) 05.14 154 0
469961 일반 Also gpt풀리는거랑 사만다 나왔으니 난 대만족 ㅇㅇ(218.147) 05.14 84 0
469960 일반 이 시각 제일 부러운 새끼..... [5] oo(175.125) 05.14 142 0
469959 일반 4o 가 그루니까 gpt also맞지? ㅇㅇ(125.137) 05.14 60 0
469958 일반 4o 버전 지금 떳는데? api에서 뜨는데?ㅎㅎㅎ [2] ㅎㅎ(112.171) 05.14 268 0
469957 일반 아니 무료로 풀면 서버 감당됨? [3] ㅇㅇ갤로그로 이동합니다. 05.14 140 0
469956 일반 지금까지 가능했던걸 버무린게 아냐 ㅇㅇ갤로그로 이동합니다. 05.14 40 0
469955 일반 무료로 푼다고?? 가능한거냐??? [2] ㅇㅇ(123.109) 05.14 102 0
469954 일반 이건 gpt5를 봐야함 [1] ㅇㅇ(112.186) 05.14 58 0
469952 일반 저게 무료면 서버 감당 가능한가???? ㅇㅇ갤로그로 이동합니다. 05.14 31 0
469951 일반 만약에 also gpt2가 4o 가 맞고 무료 버전이라면 [1] 천사다천사갤로그로 이동합니다. 05.14 119 0
469950 일반 gpt4옴니 나오는 순간 비전 항상 켜놓을 특붕이면 개추 ㅋㅋㅋㅋㅋㅋ ㅇㅇ갤로그로 이동합니다. 05.14 47 0
469949 일반 그냥 멀티모달 이제야 완성됐다 이거아님? [1] ㅇㅇ갤로그로 이동합니다. 05.14 100 0
469948 일반 저거 근데 모든 사람이 저 속도 가능? ㅇㅇ(112.161) 05.14 37 0
469947 일반 대단한 업데이트긴 하나 아직..? ㅇㅇ(125.134) 05.14 35 0
469946 일반 특갤에서 오늘 발표 호응 안좋은 이유) [3] ㅇㅇ(58.127) 05.14 308 1
469945 일반 근데 사람목소리에서 감정도 읽는거임? [5] ㅇㅇ(218.152) 05.14 108 0
469944 일반 데탑앱 출시의 의미 [2] ㅇㅇ(58.29) 05.14 92 0
469943 일반 음성 커스텀 좀 잘 열어줬으면... ㅇㅇ(218.154) 05.14 22 0
469942 일반 이제 무료로 풀면서 데이터 폭식하겠네 ㄹㅇ [1] ㅇㅇ(211.241) 05.14 105 0
469940 일반 시간이 지날수록 진짜 마음맞는 사람들 아니면 교류가 줄어들지않을까 [2] 1229(1.229) 05.14 72 0
469939 일반 그래서 뭐 언제 나온다는거임? [2] ㅇㅇ(182.230) 05.14 100 0
469938 일반 여태까지 살면서 가장 잘한짓 : 컴공 자퇴한거 [2] ㅇㅇ갤로그로 이동합니다. 05.14 149 0
469937 일반 OpenAI 블로그 새 글 떴음 [4] 모브갤로그로 이동합니다. 05.14 339 7
469936 일반 그냥 뭐랄까...GPTs 덕지덕지 붙인 키메라 같음 [1] ㅇㅇ(58.124) 05.14 108 0
469935 일반 지능 강화는 여름에 나오겠지.. 7 8월에 ㅇㅇ(175.192) 05.14 20 0
469934 일반 추론성능 향상은 5나와야하나 이런내가특특갤로그로 이동합니다. 05.14 34 0
469933 일반 카메라on 말끊기on ㅇㅇ(115.23) 05.14 37 0
469932 일반 데스크탑 mac os 한정임??? [1] ㅇㅇ(118.33) 05.14 95 0
469931 일반 결혼<--한새끼들 오열중 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [1] ㅇㅇ(218.153) 05.14 135 0
469929 일반 결국 특슬람 선형충의 대결은 5로 미루는것으로 ㅇㅇ(115.139) 05.14 34 0
469928 일반 4o랑 4 차이가 뭐임? ㅇㅇ갤로그로 이동합니다. 05.14 49 0
469927 일반 알트만 <--- 구라치진 않았음 [1] sam_ultraman갤로그로 이동합니다. 05.14 149 1
469926 일반 그냥 애매한데 왤케 호들갑이냐 ㅋㅋ ㅇㅇ(211.208) 05.14 49 0
469925 일반 4가 자정돈데 지능만 높이면 개쩔긴하겠다 ㅇㅇ(112.186) 05.14 25 0
469924 일반 말그대로 특이점 초입아닌가 ㅁㄱㅌㅊ(39.122) 05.14 45 0
469922 일반 알트만이 이런 발표가 매 1,2달마다 있을거라함 [3] ㅇㅇ(121.124) 05.14 207 0
469921 일반 걍 아이폰 처음 나왔을때 느낌 아님? [1] 깍쟁갤로그로 이동합니다. 05.14 92 0
469920 일반 이개시발 아이폰만 가능한거냐고 빨리 말해줘 [2] ㅇㅇ(121.124) 05.14 117 0
469919 일반 솔직히 정신과의사 상위호환 아닌지?ㄷㄷ [1] ㅇㅇ(14.39) 05.14 65 0
469918 일반 제공되는 대화량이 문제겠네 ㅇㅇ(221.155) 05.14 71 0
469917 일반 실시간 대화도 api같은거 있음? ㅇㅇ갤로그로 이동합니다. 05.14 21 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2