디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] 메타의 반복추론 선호도 최적화

ㅇㅇ(125.191) 2024.05.01 11:04:04
조회 231 추천 7 댓글 4
														

https://arxiv.org/abs/2404.19733


반복적 선호도 최적화 방법은 최근 일반적인 명령어 튜닝 작업에서는 우수한 성능을 보이지만 일반적으로 추론 작업에서는 거의 개선되지 않는 것으로 나타났습니다(Yuan 외., 2024, Chen 외., 2024). 이 연구에서는 정답으로 이어지는 추론 단계의 승패에 따라 경쟁적으로 생성된 생각의 연쇄(CoT) 후보 간의 선호도를 최적화하는 반복적 접근 방식을 개발합니다. 저희는 음의 로그 가능성 항을 추가한 수정된 DPO 손실(Rafailov et al., 2023)을 사용하여 훈련하는데, 이는 매우 중요하다고 판단됩니다. 이 방식을 반복적으로 반복하면 추론 능력이 향상되는 것을 확인할 수 있습니다. 훈련 세트의 예시에만 의존하는 방식이지만, 이 접근 방식은 GSM8K에서 55.6%에서 81.6%(32개 샘플 중 다수결 투표 시 88.7%), MATH에서 12.5%에서 20.8%, ARC-Challenge에서 77.8%에서 86.7%로 Llama-2-70B-Chat의 정확도를 높여 추가 소싱 데이터 세트에 의존하지 않는 다른 Llama-2 기반 모델보다 뛰어난 성능을 발휘합니다.


0a90d413f1e82f913a9ef7a341f97173b9e017dd673e58780af509170db6f4





자동등록방지

추천 비추천

7

고정닉 3

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 7180 32
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2972] 특갤용갤로그로 이동합니다. 23.08.06 38355 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2322 2
363220 공지 선형글 삭제 기준 [6] 특갤용갤로그로 이동합니다. 23.10.14 6976 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 12974 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [50] 특갤용갤로그로 이동합니다. 23.11.07 8701 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8056 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 8918 30
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22431 33
480074 일반 4o 대화창 삭제해도 이전 내용 기억하고 있는거 맞음? ㅇㅇ갤로그로 이동합니다. 05:41 6 0
480073 일반 사람이 바뀌진 않지만. ㅇㅇ(49.1) 05:30 17 0
480072 일반 역노화가 불멸은 아니자나 [4] ㅇㅇ(14.45) 05:26 29 0
480071 일반 음성ai발전하면 ar쪽도 꽤 써먹을수있을거같음 ㅇㅇ(39.124) 05:23 18 0
480070 일반 그런데 어쩌면 asi 가 등장해도 세상은 그다지 변할 것 같진 않음 [11] ㅇㅇ(175.192) 05:20 55 0
480068 일반 이번 마소 빌드에서 가장 인상깊은거 [1] ㅇㅇ(118.235) 04:53 126 3
480067 일반 구글이라는 발사대가 없었으면 ㅇㅇ갤로그로 이동합니다. 04:48 44 0
480066 일반 gpt5 출시시기 오피셜 떳다 [2] 특이점맞냐갤로그로 이동합니다. 04:30 234 0
480065 일반 근데 마소에서도 발표안했는데 [2] ㅇㅇ(111.91) 04:25 115 0
480064 일반 이새끼 나랑 장난치나 [4] ㅇㅇ(211.104) 04:24 168 0
480063 일반 흠 좀 짜치는데..? [1] ㅇㅇ(118.235) 04:07 217 1
480062 일반 흠 정말이지 격변의 목격자가 되어서 ㅇㅇ(175.192) 04:06 73 0
480061 일반 사실 내용만 보면 오픈AI 스프링 업데이트보다 [2] ㅇㅇ갤로그로 이동합니다. 04:05 176 0
480060 일반 크기 정보가 진짜면 [2] ㅇㅇ(211.234) 04:03 154 0
480059 정보 MS, Devin과 파트너쉽 발표 "자율 AI 에이전트" [1] ㅇㅇ(119.77) 04:02 172 0
480058 일반 휴머노이드 나오면 같이 오토바이 여행해야지 떼껄룩해적단갤로그로 이동합니다. 04:01 54 1
480057 정보 Gemini1.5로 게임 어시스트 구현 성공 [3] ㅇㅇ(125.183) 03:59 182 2
480056 일반 구글io보단 알찼노ㅇㅇ [2] ㅇㅇ(121.131) 03:59 84 0
480055 일반 나중에 뇌만 옮기는 시술 나와서 [3] ㅇㅇ(111.91) 03:58 94 0
480054 일반 근데 gpt5 나온다고 해도 api로만 우선 나오겠지? ㅇㅇ(121.162) 03:58 38 0
480053 일반 김하정 다올투자증권 연구원은 ''올 여름 공개 예정인 GPT-5는.. [1] 제타플롭스갤로그로 이동합니다. 03:56 155 1
480052 일반 2024년 여름 어느 날...jpg [2] ㅇㅇ갤로그로 이동합니다. 03:55 166 2
480051 일반 아직도 회사 틀딱들은 AI 못믿어서 안쓴다더라 ㅋㅋ [4] ㅇㅇ(121.162) 03:55 162 0
480050 일반 언어모델이 언어모델을 훈련시키면 지수성장이 당연 가능함 ㅇㅇ(175.192) 03:55 44 0
480049 일반 질문) 창작영역에서 gpt4o랑 bing copilot이랑 뭐가 좋음? ㅇㅇ(114.206) 03:53 53 0
480048 일반 우리도 언젠가 ㅇㅇ갤로그로 이동합니다. 03:51 56 0
480047 일반 1년 반만에 성능 10배향상이면 미친거 아니냐? [3] ㅇㅇ(121.131) 03:51 165 0
480046 정보 알트만 게이 기사 [2] ㅇㅇ(119.77) 03:50 125 0
480045 토의 돈은 많이 모아놨냐 게이들아? 과도기 어떻게 버틸 생각임? [1] ㅇㅇ(121.162) 03:50 72 0
480044 일반 급식게이들 이거 잘 외워둬라 [2] ㅇㅇ(218.155) 03:49 143 0
480042 일반 추세 지속되면 2035 기술적 특이점도 가능 ㅇㅇ(125.191) 03:48 98 0
480041 일반 보이스 나오면 혼잣말 하는 새끼들 존나 늘어나겠노; [5] ㅇㅇ(121.162) 03:47 120 0
480040 일반 Gpt5 알트만 피셜이 5~10배라는 트윗이 있음 ? [2] ㅇㅇ갤로그로 이동합니다. 03:47 125 0
480039 일반 언론에서도gpt5여름 출시라고 했는데 [1] 연맛갤로그로 이동합니다. 03:46 110 0
480037 일반 차라리 예고의 예고라도 해 줬으면 좋겠다 [3] ㅇㅇ(119.202) 03:45 70 0
480036 일반 흑등고래 입갤 개웃기네 ㅋㅋㅋㅋㅋㅋㅋ [5] ㅇㅇ(112.161) 03:44 124 0
480035 일반 LLM은 근본적 한계가 있다 ㅇㅇ갤로그로 이동합니다. 03:44 76 0
480034 일반 시총 1위도 스캠이다... [3] ㅇㅇ(121.131) 03:42 120 0
480033 일반 나만 다르게 들은 거냐? 고래 크기가 성능 의미하는 게 아닐 걸 [6] ㅇㅇ(119.202) 03:42 162 1
480032 일반 이게 스캠 전 몸집 불리기였으면 ㄹㅇ 말이 안됨 ㅇㅇ갤로그로 이동합니다. 03:41 63 0
480031 일반 새로운모델 성능 어느정도일거 같음? [1] ㅇㅇ(125.183) 03:40 58 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2