디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] Meta의 다중 토큰 예측 패러다임 제시

ㅇㅇ(119.77) 2024.05.02 22:26:16
조회 107 추천 2 댓글 1
														

a04424ad2c06782ab47e5a67ee91766dc28ff1ecd6acc5cabf13d1c253d3d0212077753f9cbf360f55bbeb1761a746

지금까지 다음 토큰 하나만 예측하던 것에서

여러 토큰을 한번에 예측 (논문에서는 주로 4개 토큰)하는 패러다임을 제시


이렇게 했을 때의 장점:

학습 효율이 좋아지며, 특히 코딩쪽 성능이 크게 향상됨

또한 모델이 크면 클수록 그 효과는 배가됨

그리고 모델의 추론 속도도 매우 빨라짐


생각해보면 그렇게 엄청나게 신박한 아이디어는 아닌데

왜 지금까지 이렇게 안했을까? 라는 질문에 대한 저자들의 생각은

아래 표에서 볼 수 있다.

7fef8274abc236a14e81d2b628f1736a285cbd

보면 알 수 있듯이, 1B 미만 모델에서는 오히려 다중 토큰이 성능 저하를 불러옴

사실 1B도 작은 모델이 아니기 때문에

여기까지 실험해보고나서 '이건 안되겠다'하고 다른 연구자들이

간과했다는게 논문 저자들의 의견임.


실제로는 보면 알 수 있듯이 모델이 크면 클 수록 그 효과가 더욱 커짐.

직관적으로 다음 토큰 하나 예측보다 훨씬 어렵기 때문에

작은 모델에서는 낮은 능지로 그 어려운 문제를 푸는데 과부하가 걸렸기 때문이 아닐까 생각


이번엔 4-토큰 예측이었지만, 앞으로 더 많은 토큰을 한번에 예측하는 식으로

모델 사이즈와 비례에서 문제를 어렵게 만들면 어떤 모델이 만들어질지 기대됨.



(이건 음모론이지만 OAI의 비법 소스 중에 하나가 이 방식이 아닐까 생각도 해봄.

스케일에 미친 놈들이라 한 번쯤은 실험해봤을 것 같다.)


끝-






자동등록방지

추천 비추천

2

고정닉 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
475621 정보/ 맥용 앱의 음성 모델은 아직 이전 버전이다 [4] 기능제어갤로그로 이동합니다. 05.16 192 1
475620 일반 AGI가 사람 지능보다 더 대단한 거지? [3] ㅇㅇ(119.202) 05.16 168 0
475619 일반 ChatGPT4o 도 사람같은데 5 는 진짜 [3] ㅇㅇ(218.234) 05.16 305 0
475618 일반 이젠 해외여행도 문제 없겠노 ㅇㅇ(175.209) 05.16 86 0
475617 일반 특이점이 오면 털 북슬북슬한 몸뚱이로 퍼리섹스 하고싶다 [8] ㅇㅇ(180.64) 05.16 201 0
475616 일반 근데 특이점이라는 말이 좀 웃기지않냐? [2] ㅇㅇ갤로그로 이동합니다. 05.16 102 0
475615 일반 통역사 다 짤리겠더라 ChatGPT4o 실시간 통역 ㅎㄷㄷ [2] ㅇㅇ(218.234) 05.16 439 2
475614 일반 클로드 얘기 꺼내지도 마라 한달구독하고 끊음 ㅅㅂ [4] ㅇㅇ(180.65) 05.16 290 2
475613 일반 지금 챗gpt앱 기본 상태가 4o라는거? [1] ㅇㅇ갤로그로 이동합니다. 05.16 190 0
475612 일반 지금 반응을 보니 클로드랑 막상막하인가 보네 [7] ㅇㅇ(117.20) 05.16 333 0
475611 일반 클로드가 문과용으로 낫다는게 개소리인 이유 [4] ㅇㅇ갤로그로 이동합니다. 05.16 225 0
475610 일반 혹시 토탈워라는 게임 아는사람 있나 [6] ㅇㅇ갤로그로 이동합니다. 05.16 183 0
475609 일반 결제해서 써보는데 아직 문과용으로는 오푸스가 나음 [8] ㅇㅇ(121.144) 05.16 210 0
475608 일반 제일 중요한게 음성 서비스인데 그게 없으니깐 평이 갈리지 ㅇㅇ갤로그로 이동합니다. 05.16 76 0
475607 일반 챗지피티에서 claude로 갈아탔었는데 [4] ㅇㅇ(219.248) 05.16 248 0
475606 일반 상용프로그램급 코딩하려면 [6] ㅇㅇ갤로그로 이동합니다. 05.16 186 0
475605 일반 아래문제 풀어봐 빡대가리는 못품 ㅇㅇ갤로그로 이동합니다. 05.16 64 0
475604 일반 이기가 이기면 이기인거임? ㅇㅇ갤로그로 이동합니다. 05.16 51 0
475603 일반 gpt4o 현재까지 공개된 벤치로 제미니, 클로드, 4t와 비교 [8] ㅇㅇ갤로그로 이동합니다. 05.16 3830 25
475602 일반 소설만 잘써도 기뻐하는 애들 이리도 많노? [19] ㅇㅇ(117.20) 05.16 353 0
475601 일반 chatgpt 4 질문 수 제한 나만 1개임? [6] 땍띠껄갤로그로 이동합니다. 05.16 449 0
475600 일반 한글 작문은 클로드가 낫냐, gpt-4o가 낫냐? [2] ㅇㅇ(121.131) 05.16 184 0
475599 일반 gpt 4o 이런거 됨? ㅇㅇ갤로그로 이동합니다. 05.16 75 0
475598 일반 GPT 4o가 여론 갈릴수밖에 없는 이유.jpg [8] ㅇㅇ갤로그로 이동합니다. 05.16 476 2
475597 일반 아니.....맥에다 보이스 먼저 주면 어떻게 하냐 [4] ㅇㅇ(106.247) 05.16 178 0
475596 일반 문과 클로드 vs 이과 GPT-4o 물병나르는청년갤로그로 이동합니다. 05.16 154 0
475594 일반 맥용 gpt 앱 음성된다 ㄷㄷㄷ [7] 디붕이(121.190) 05.16 393 1
475592 일반 문과감성도 클로드 제친 느낌인데? [2] ㅇㅇ갤로그로 이동합니다. 05.16 200 0
475591 일반 gpt in arena 특 [2] dd갤로그로 이동합니다. 05.16 137 0
475590 일반 특갤에서 gpt4o 여론이 갈리는 이유 [8] ㅇㅇ갤로그로 이동합니다. 05.16 455 6
475589 일반 단위변환이 검열을 먹네 [2] 신화망상갤로그로 이동합니다. 05.16 165 2
475588 일반 이제 다시 클로드보단 GPT임? [8] ㅇㅇ(175.126) 05.16 270 0
475587 일반 Ai때문에 클라우드도 지금 azure 가 점유율 개높음 탈조선갤로그로 이동합니다. 05.16 97 0
475585 일반 agi안오고 사무직 노동대체만 ㅈㄴ게되는 시나리오 [5] ㅇㅇ(112.172) 05.16 237 0
475583 일반 돼지 뇌가 체외에서 5시간 생존했다는 글 [2] 냥쁨갤로그로 이동합니다. 05.16 254 0
475580 일반 갤주 살아남는다는 기준이 탈조선갤로그로 이동합니다. 05.16 81 0
475579 일반 이것도 개 쩌는 기술 아니냐 ㅇㅇ(112.161) 05.16 121 0
475578 일반 클로드, GPT, 제미니 다 구독중이었는데 제미니 구취 했어 [5] 엠창인생막장의끝갤로그로 이동합니다. 05.16 292 0
475577 일반 샘성 잼민이 계속 쓴대? ㅇㅇ갤로그로 이동합니다. 05.16 80 0
475576 일반 4o 다주는거 아니고 랜덤배포였어?? [4] 엠창인생막장의끝갤로그로 이동합니다. 05.16 333 0
475575 일반 재민이새끼는 영어로 된거 주면서 한글로 물어보면 일본어 중국어 [2] ㅇㅇ(110.145) 05.16 124 0
475574 일반 맥os 쓰는 특붕이들아 맥os 전용 chatgpt 출시함 [10] 은바다갤로그로 이동합니다. 05.16 365 0
475573 일반 요번 gpt-4o 이후 내년 AGI 나올거 같아? [3] 00(112.153) 05.16 235 0
475572 일반 인공지능이 니 성격 전문가보다 더 잘 파악한다. [1] ㅇㅇ(112.161) 05.16 123 1
475570 일반 그래서 이분 죽는거 확정임? [7] ㅇㅇ(218.50) 05.16 437 0
475377 정보/ 잠잘때 뇌 노폐물 청소? “딱히 그렇지 않아” [48] ㅇㅇ(182.230) 05.15 5856 27
475470 정보/ OpenAI 공동창립자 겸 과학자 "내 직업 대체? 5년정도 걸릴듯" [26] ㅇㅇ(59.17) 05.16 4645 28
475569 일반 일리야 퇴사한 이유.eu ㅇㅇ갤로그로 이동합니다. 05.16 224 0
475568 일반 일리야 이렇게 보니 특갤공식미남 얀르쿤보다 더 잘생겨보이네 [1] ㅇㅇ(121.130) 05.16 246 0
475567 일반 Gpt4랑 몇배 차이임? [1] ㅇㅇ(112.212) 05.16 105 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2