디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] Meta의 다중 토큰 예측 패러다임 제시

ㅇㅇ(119.77) 2024.05.02 22:26:16
조회 109 추천 2 댓글 1
														

a04424ad2c06782ab47e5a67ee91766dc28ff1ecd6acc5cabf13d1c253d3d0212077753f9cbf360f55bbeb1761a746

지금까지 다음 토큰 하나만 예측하던 것에서

여러 토큰을 한번에 예측 (논문에서는 주로 4개 토큰)하는 패러다임을 제시


이렇게 했을 때의 장점:

학습 효율이 좋아지며, 특히 코딩쪽 성능이 크게 향상됨

또한 모델이 크면 클수록 그 효과는 배가됨

그리고 모델의 추론 속도도 매우 빨라짐


생각해보면 그렇게 엄청나게 신박한 아이디어는 아닌데

왜 지금까지 이렇게 안했을까? 라는 질문에 대한 저자들의 생각은

아래 표에서 볼 수 있다.

7fef8274abc236a14e81d2b628f1736a285cbd

보면 알 수 있듯이, 1B 미만 모델에서는 오히려 다중 토큰이 성능 저하를 불러옴

사실 1B도 작은 모델이 아니기 때문에

여기까지 실험해보고나서 '이건 안되겠다'하고 다른 연구자들이

간과했다는게 논문 저자들의 의견임.


실제로는 보면 알 수 있듯이 모델이 크면 클 수록 그 효과가 더욱 커짐.

직관적으로 다음 토큰 하나 예측보다 훨씬 어렵기 때문에

작은 모델에서는 낮은 능지로 그 어려운 문제를 푸는데 과부하가 걸렸기 때문이 아닐까 생각


이번엔 4-토큰 예측이었지만, 앞으로 더 많은 토큰을 한번에 예측하는 식으로

모델 사이즈와 비례에서 문제를 어렵게 만들면 어떤 모델이 만들어질지 기대됨.



(이건 음모론이지만 OAI의 비법 소스 중에 하나가 이 방식이 아닐까 생각도 해봄.

스케일에 미친 놈들이라 한 번쯤은 실험해봤을 것 같다.)


끝-






자동등록방지

추천 비추천

2

고정닉 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2864 설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
486585 정보/ AI는 발성의 변화를 통해 루이체 치매를 감지합니다 ㅇㅇ갤로그로 이동합니다. 06.05 82 1
486155 정보/ mmlu pro 업데이트 나옴 [23] ㅇㅇ갤로그로 이동합니다. 06.04 2938 25
486452 정보/ 코코타일로, "OAI AGI 최초 구축위해 무모한 경쟁 중" [1] ㅇㅇ(118.235) 06.04 244 1
486445 정보/ OAI 전현직 직원 6명, AI안전 그룹 형성 [4] ㅇㅇ(118.235) 06.04 247 2
486405 정보/ ChatGPT 서버 오류가 반드시 나쁜 소식은 아닐 수 있다. chatgpt4o갤로그로 이동합니다. 06.04 276 1
486396 정보/ 인공지능 시대 이후 미래 생활 모습 예상 [3] ㅇㅇ(59.26) 06.04 342 2
486359 정보/ 구글 제미니 6월 5일 업데이트 예정 [7] 닉얼갤로그로 이동합니다. 06.04 563 1
486356 정보/ 마커스 “AI 아무리 많이 학습해도 인과적 사고 불가능” [10] lightvector갤로그로 이동합니다. 06.04 669 1
486354 정보/ 인텔 CEO "인텔 파운드리 이미 삼성 꺾어" [9] ㅇㅇ(125.191) 06.04 389 1
486351 정보/ '백발백중' 드론 격추하는 AI 사격 장치 논란 [3] lightvector갤로그로 이동합니다. 06.04 289 2
486349 정보/ "AI가 인류 파괴할 가능성 99.9%"…근거는? [3] lightvector갤로그로 이동합니다. 06.04 409 1
486343 정보/ "알트먼 400개 이상 회사에 투자...보유 자.산은 최소 3.8조" [7] ㅇㅇ갤로그로 이동합니다. 06.04 349 3
486340 정보/ MS, 애저 '문샷팀' 1500명 해고..."AI 투자에 집중" [6] ㅇㅇ갤로그로 이동합니다. 06.04 454 7
486339 정보/ 허깅페이스, 15조개 토큰 포함한 대규모 데이터셋 오픈 소스 출시 [1] ㅇㅇ갤로그로 이동합니다. 06.04 221 5
486321 정보/ 다운됐을때 4.5추정되는 무언가 유출됨 [2] ㅇㅇ(118.33) 06.04 598 1
486156 정보/ ChatGPT 지금 좀 느린가보네 [3] Ad_Astra갤로그로 이동합니다. 06.04 436 1
486136 정보/ 중국은 LLM의 정렬 목표에 '시진핑 사상'을 반드시 반영하게 합니다. [5] lightvector갤로그로 이동합니다. 06.04 319 4
486107 정보/ 앤트로픽 직원 ai 안전빌미 정부규제 반대 [2] ㅇㅇ(125.191) 06.04 260 4
486098 정보/ 문화적 축적을 통한 인간 문화 모델링 [2] ㅇㅇ(221.167) 06.04 139 1
486083 정보/ SD3 2b모델 6월 12일 공개 [4] ㅇㅇ(175.208) 06.04 940 15
486047 정보/ 애플, 오픈 ai에게 백기투항 [2] ㅇㅇ(211.116) 06.04 624 1
486022 정보/ X(트위터)에서 NSFW가 허용됨 [3] 디시콘발사대갤로그로 이동합니다. 06.04 735 8
485994 정보/ 일론머스크, 르쿤이햄 언팔 [3] ㅇㅇ(119.77) 06.04 472 1
485993 정보/ MS, 5000배 빠른 SOTA 날씨 예측 모델 공개 [2] ㅇㅇ(119.77) 06.04 336 4
485991 정보/ 보이스 대신 치타 발표 떴다 ㄷㄷ [5] ㅇㅇ(119.77) 06.04 642 6
485973 정보/ 돼지 심장 이식한 영장류 100일 넘게 생존…韓 최장기록 [2] ㅇㅇ갤로그로 이동합니다. 06.04 323 3
485953 정보/ Xai 내년 여름까지 B200 30만개 투입 [3] ㅇㅇ(119.77) 06.04 350 1
485791 정보/ 스마트폰 충전을 1분 만에?… 美 콜로라도대 연구팀 기술 개발 성공 [2] chatgpt4o갤로그로 이동합니다. 06.03 289 4
485635 정보/ 구글에서 AGI 정렬 매니저를 구인 중 [37] lightvector갤로그로 이동합니다. 06.03 4201 20
485780 정보/ GPT5의 훈련 비용은 최소 1조 7천억원으로 예상됨.jpg [24] lightvector갤로그로 이동합니다. 06.03 807 3
485754 정보/ 사우디, 中 AI 스타트업에 4억달러 투자 [3] lightvector갤로그로 이동합니다. 06.03 250 1
485753 정보/ "항소심 승소 가능성은…" AI가 판례 참고해 5초만에 답변 lightvector갤로그로 이동합니다. 06.03 211 1
485740 정보/ 올해는 에이전트의 해이다 친근한게이브갤로그로 이동합니다. 06.03 185 1
485677 정보/ Mamba-2 나왔네 [3] ㅇㅇ갤로그로 이동합니다. 06.03 340 7
485655 정보/ 구글 드라이브 2TB+제미나이 2개월 무료 [4] 라익갤로그로 이동합니다. 06.03 454 1
485653 정보/ 뇌세포 컴퓨팅 [5] 뜨콜갤로그로 이동합니다. 06.03 197 2
485617 정보/ AI 두뇌 지도는 알츠하이머병과 자폐증을 이해하는 데 도움이 될 수 있다 [2] ㅇㅇ갤로그로 이동합니다. 06.03 278 4
485432 정보/ TSMC 2nm 공정 2025년 양산 예정 [17] 은바다갤로그로 이동합니다. 06.02 449 9
485291 정보/ 6월 6일 open ai tech week reception [7] ㅇㅇ(118.33) 06.02 724 9
485287 정보/ Elevenlabs 효과음 생성 AI 출시 [28] Ad_Astra갤로그로 이동합니다. 06.02 5499 69
485269 정보/ 우주인 고산 CBS에 나와서 특이점 대학 얘기함 [6] ㅇㅇ­갤로그로 이동합니다. 06.02 491 3
485255 정보/ AI 도구로 환자를 효과적인 항우울제와 더 빠르게 매칭 [6] ㅇㅇ갤로그로 이동합니다. 06.02 301 2
485155 정보/ 앤트로픽 cos "앞으로 3년이 내 직업의 마지막 일 수도" [53] 선갤러(125.191) 06.01 5388 45
485102 정보/ 샘알트만 "사회 전체 구조가 논쟁과 재구성을 겪게 될 것 " [27] ㅇㅇ(125.191) 06.01 4092 29
485099 정보/ 메타, 최강 비전 모델 ‘라마3-V’ 공개…"8B로 GPT-4V와 동급" [32] ㅇㅇ갤로그로 이동합니다. 06.01 3744 27
485096 정보/ "엔비디아 최대 고객은 MS...상위 4곳이 GPU 40% 구매" ㅇㅇ갤로그로 이동합니다. 06.01 313 5
485078 정보/ "진짜" 프롬프트 엔지니어링의 중요성 [3] 초존도초갤로그로 이동합니다. 06.01 388 4
485072 정보/ 애플, 챗봇 아닌 '모바일 AI 에이전트'로 시리 업그레이드 [6] chatgpt4o갤로그로 이동합니다. 06.01 287 1
485036 정보/ Audible의 4만 개가 넘는 도서가 AI '가상 음성'으로 제작됨 ㅇㅇ(124.56) 06.01 108 1
485023 정보/ 구글 SEO 비밀 알고리즘 깃헙 유출 [1] 초존도초갤로그로 이동합니다. 06.01 270 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2