디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 안드레 카파시의 라마3 평가

ㅇㅇ(182.230) 2024.04.20 15:43:43
조회 2263 추천 26 댓글 11
														

https://twitter.com/karpathy/status/1781028605709234613



a15714ab041eb360be3335625683746f0053452dd6a4eb89d63066f09e1ccd6eb3f3b14e9ba038b5319bbcdb5777



- 8B, 70B(기본 모델과 파인튜닝된 모델 모두) 모델을 공개함. 이들은 각 모델 클래스에서 강력한 성능을 보여줌.

- 400B 모델은 아직 학습 중이지만, 이미 GPT-4의 영역에 근접하고 있음(예: MMLU 84.8 vs. GPT-4의 86.5)


토크나이저

- 토큰 수가 32K(Llama 2)에서 128K(Llama 3)로 4배 증가

- 더 많은 토큰으로 시퀀스 길이를 더 압축할 수 있음. 15% 적은 토큰을 인용하고 다운스트림 성능 향상


아키텍처

- Llama 2에서는 큰 모델만 Grouped Query Attention(GQA)를 사용했지만, 이제 가장 작은 8B 모델을 포함한 모든 모델이 GQA를 사용

- GQA는 Attention의 키/값에 대한 파라미터 공유 체계로, 추론 중 KV 캐시의 크기를 줄임

- 이는 복잡성을 줄이고 최적화하는 좋고 환영받을 만한 수정사항임


시퀀스 길이

- 컨텍스트 윈도우의 최대 토큰 수가 4096(Llama 2) 및 2048(Llama 1)에서 8192로 증가

- 이 증가는 환영할 만하지만 최신 표준(예: GPT-4는 128K)에 비해 상당히 작음

- 많은 사람들이 이 축에 대해 더 많은 것을 기대했을 것임. 나중에 파인튜닝으로 가능할지도(?)


학습 데이터

- Llama 2는 2T 개의 토큰으로 학습되었고, Llama 3은 15T 학습 데이터셋으로 증가

- 데이터 품질, 4배 더 많은 코드 토큰, 30개 이상의 언어로 5%의 non-en 토큰에 많은 주의를 기울임

- 5%는 non-en:en 믹스에 비해 상당히 낮아서 이 모델은 대부분 영어 모델임. 그러나 0보다 큰 것은 꽤 좋음


스케일링 법칙

- 15T는 8B 매개변수와 같은 "작은" 모델에 대해 학습하기에 매우 큰 데이터셋이며, 이는 일반적으로 수행되지 않는 새롭고 매우 환영할 만한 일임

- 친칠라 "compute optimal" 포인트에서 8B 모델을 학습시키려면 ~200B 토큰 정도 학습시켜야 함

- 모델 성능에 대한 "bang-for-the-buck"에만 관심이 있다면 이 정도면 충분함

- 하지만 Meta는 그 지점을 ~75배 넘어 학습시켰는데, 이는 비정상적이지만 개인적으로 매우 환영할 만한 일이라고 생각함.

- 우리 모두는 매우 작고 작업하기 쉬우며 추론이 쉬운 매우 유능한 모델을 얻게 됨

- Meta는 이 지점에서도 모델이 표준적인 의미에서 "수렴"하는 것 같지 않다고 언급함

- 즉, 우리가 항상 작업하는 LLM은 100-1000배 이상의 훨씬 더 긴 학습이 부족하며 수렴점에 근접하지 않음

- 앞으로 더 오랫동안 학습되고 훨씬 더 작은 모델을 공개하는 추세가 계속되기를 바람


시스템

- Llama 3는 16K GPU에서 관찰된 처리량이 400 TFLOPS로 학습되었다고 언급됨

- 언급되지는 않았지만 이들이 NVIDIA 마케팅 자료에서 1,979 TFLOPS를 기록하는 H100 fp16이라고 가정

- 하지만 우리는 모두 그들의 작은 별표(*with sparsity)가 많은 일을 하고 있다는 것을 알고 있으며, 실제 TFLOPS를 얻으려면 이 숫자를 2로 나누어 ~990을 얻어야 함

- (Sparsity가 FLOPS로 계산되는 이유는 무엇일까?)

- 어쨌거나 400/990 ~= 40% 활용률로, 그 많은 GPU에서 꽤 나쁘지 않음!

- 이 규모에서 여기에 도달하려면 많은 양의 정말 탄탄한 엔지니어링이 필요함


요약

- Llama 3는 매우 유능해 보이는 모델 릴리스이며 매우 환영할 만함

- 기본에 충실하고, 탄탄한 시스템과 데이터 작업에 많은 시간을 할애하며, 장기 학습 모델의 한계를 탐구함

- 400B 모델도 매우 기대되며, 이는 GPT-4 급의 첫 번째 오픈 소스 릴리스가 될 수 있음

- 많은 사람들이 더 긴 컨텍스트 길이를 요구할 것이라고 생각함



자동등록방지

추천 비추천

26

고정닉 10

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2864 설문 비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는? 운영자 24/06/03 - -
462485 정보/ 알트먼 "AGI도 수준 차 존재할 것...'AI 킬러 앱'은 에이전트" [4] ㅇㅇ(182.230) 05.03 1851 18
462483 정보/ 바이든, '챗GPT' 처음 써보고 "믿을 수 없어" 반응 [10] ㅇㅇ(182.230) 05.03 624 12
462430 일반 ai노래 유튜브에서 컨텐츠로 자리잡았네 ㅋㅋㅋㅋㅋㅋㅋ [2] 로코무지카갤로그로 이동합니다. 05.03 2587 23
462389 일반 “일론은 Q*가 있다고 진심으로 믿고 움직이고 있다” [14] ㅇㅇ(118.36) 05.03 3929 25
462232 정보/ [Official] gpt2-chatbot은 GPT-4.5가 아닙니다. [27] ㅇㅇ(119.77) 05.02 2724 18
462193 정보/ 공정한 MMLU 벤치마크 결과 [4] ㅇㅇ(119.77) 05.02 635 13
462302 정보/ 르쿤이형, 누군가를 저격한듯한 발언 [30] ㅇㅇ(119.77) 05.03 3201 30
462294 정보/ 일리야 수츠케버, 생존신고 [18] ㅇㅇ(119.77) 05.03 2638 21
462270 정보/ AI용어) Prompt vs Fine-tuning vs RAG [10] ㅇㅇ(182.230) 05.03 1362 21
461992 정보/ 샘 알트만 : 2030년에도 삶은 크게 달라지지 않을 것 [68] ㅇㅇ(119.77) 05.02 5940 38
461983 정보/ 지난주 스탠포드대학교 샘알트만 강연 비디오 [18] ㅇㅇ(125.191) 05.02 2064 21
462055 일반 소신발언) 근데 그냥 gpt-5로 안내면 되는거 아님? [7] ㅇㅇ(1.239) 05.02 2499 21
462054 정보/ 벤치마크딸 모델들의 민낯 공개 [21] ㅇㅇ(119.77) 05.02 3154 28
461945 일반 스압)노동종말 이후에 찾아올것은 [10] 냉법비법화법갤로그로 이동합니다. 05.02 1730 27
461921 일반 KAN 간략한 정리글 [47] ㅇㅇ(221.152) 05.02 4632 23
461900 일반 KAN이라는 엄청난 것이 떴나본데 [23] ㅇㅇ(106.102) 05.02 3722 21
461743 일반 gpt2의 정체에 대한 추측 (진지글) [12] ㅇㅇ(210.223) 05.01 2942 23
461605 일반 이름가지고 장난치는거 보니까 슬슬 끝물같으면 개추ㅋㅋㅋ [5] ㅇㅇ(211.197) 05.01 4245 40
461548 일반 GPT2에 대한 가장 그럴듯한 설명 [34] 모브갤로그로 이동합니다. 04.30 3516 30
461546 일반 S 곡선 끄트머리 같으면 개추 [13] ㅇㅇ(112.165) 04.30 3422 35
461511 정보/ 찍이점) 심장 미세환경까지 구현한 미니 장기 ‘오가노이드’ 나왔다 [5] ㅇㅇ(182.230) 04.30 1812 24
461505 정보/ 영상의 디테일을 부활시키며 업스케일하는 AI ‘Video GigaGAN’ [20] ㅇㅇ(182.230) 04.30 2823 23
461494 일반 gpt2 최신 갤떡밥 요약.jpg [11] ㅇㅇ(218.155) 04.30 4837 32
461362 일반 GPT2 ㄹㅇ 퀀텀점프 아니냐 ㄷㄷㄷ [26] ㅇㅇ갤로그로 이동합니다. 04.30 4788 41
363468 일반 고전) 특갤 문학 고전 명작 모음집 [20] ㅇㅇ(61.84) 23.10.15 5358 72
461177 일반 gpt2-chatbot 써보는 방법 [8] ㅇㅇㅇ(1.220) 04.30 4136 26
461021 일반 간단하지만 어려운 추론 문제로 LLM들의 성능을 알아보자 [24] ㅇㅇ(106.102) 04.30 2655 20
461011 일반 애초에 '환각'이라는 표현부터가 이상함 [33] ㅇㅇ(121.173) 04.30 3189 18
461007 일반 오늘자 오픈AI 트윗 말장난 [16] 모브갤로그로 이동합니다. 04.30 3371 26
460981 일반 OpenAI 개발자 플랫폼 새로운 기능 추가 [15] ㅇㅇ(112.144) 04.30 3123 25
460951 일반 보스턴다이나믹스 신규영상 [19] ㅇㅇ(125.183) 04.30 2978 23
460872 일반 근데 왜 미국애들은 새벽에 뭐 발표함?? [23] lightvector갤로그로 이동합니다. 04.29 3194 31
460861 일반 속보) GPT 올해의 가장 큰 업데이트 발표 [13] ㅇㅇ갤로그로 이동합니다. 04.29 4175 27
460815 일반 응 gpt5 나와 이 병신들아 [21] ㅇㅇ갤로그로 이동합니다. 04.29 3120 33
460811 일반 오늘 그냥 잘꺼면 개추 ㅋㅋ [15] ㅇㅇ(58.29) 04.29 1747 43
460748 일반 내일 무조건 GPT-5 나오는 이유 5가지.jpg [19] ㅇㅇ(182.230) 04.29 3096 27
460726 정보/ 또 등장한 '소라'의 한계 지적..."영화 제작은 시기상조" [13] ㅇㅇ(182.230) 04.29 535 14
460686 정보/ 깃허브 개발자 "내일 큰 거 온다" [20] ㅇㅇ(125.191) 04.29 3235 26
460658 정보/ 제미니 울트라 1.5 [13] ㅇㅇ(125.191) 04.29 953 16
460650 정보/ 국내 직장인 셋 중 하나 "생성형 AI 10년 안에 내 업무 대체할 것" [13] ㅇㅇ(125.191) 04.29 2451 28
460611 정보/ 2024년 AI 스타트업을 위한 데이터 수집 전략 [3] ㅇㅇ(182.230) 04.29 1615 21
460626 일반 자본주의는 망해야 함 [24] ㅇㅇ(58.29) 04.29 1864 34
460621 일반 무어의 법칙 이번에는 진짜 끝났다!! 발전 좆됐다!!! [35] lightvector갤로그로 이동합니다. 04.29 3063 35
460600 정보/ Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5 [4] ㅇㅇ(182.230) 04.29 747 21
460599 정보/ Meta Llama 3 발표후, 첫 일주일간 생긴 일 [2] ㅇㅇ(182.230) 04.29 1440 26
460583 정보/ Figure 60 Minutes 영상 [14] ㅇㅇ(125.191) 04.29 1117 16
460574 정보/ 중국의 AI 혁신으로 의사보다 두 배 빠른 속도로 식도암 병변 식별 [6] ㅇㅇ갤로그로 이동합니다. 04.29 856 17
460165 정보/ 터미네이터 감독 "AI가 날 대신할 수도…배우는 대체 못 해" [7] lightvector갤로그로 이동합니다. 04.27 1605 16
460448 정보/ 사람 음성 받아적는 AI도 '환각' 보여…"없는 말 지어내" [11] ㅇㅇ(182.230) 04.28 945 15
460400 일반 나도 한명 저격해도 되냐 ㅅㅂ [5] ㅇㅇ(14.53) 04.28 3045 30
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2