안드레 카파시의 라마3 평가 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 부재중입니다.(hnn12) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보] 안드레 카파시의 라마3 평가

ㅇㅇ(182.230) 2024.04.20 15:43:43

조회 2214 추천 26 댓글 11

https://twitter.com/karpathy/status/1781028605709234613

a15714ab041eb360be3335625683746f0053452dd6a4eb89d63066f09e1ccd6eb3f3b14e9ba038b5319bbcdb5777

- 8B, 70B(기본 모델과 파인튜닝된 모델 모두) 모델을 공개함. 이들은 각 모델 클래스에서 강력한 성능을 보여줌.

- 400B 모델은 아직 학습 중이지만, 이미 GPT-4의 영역에 근접하고 있음(예: MMLU 84.8 vs. GPT-4의 86.5)

토크나이저

- 토큰 수가 32K(Llama 2)에서 128K(Llama 3)로 4배 증가

- 더 많은 토큰으로 시퀀스 길이를 더 압축할 수 있음. 15% 적은 토큰을 인용하고 다운스트림 성능 향상

아키텍처

- Llama 2에서는 큰 모델만 Grouped Query Attention(GQA)를 사용했지만, 이제 가장 작은 8B 모델을 포함한 모든 모델이 GQA를 사용

- GQA는 Attention의 키/값에 대한 파라미터 공유 체계로, 추론 중 KV 캐시의 크기를 줄임

- 이는 복잡성을 줄이고 최적화하는 좋고 환영받을 만한 수정사항임

시퀀스 길이

- 컨텍스트 윈도우의 최대 토큰 수가 4096(Llama 2) 및 2048(Llama 1)에서 8192로 증가

- 이 증가는 환영할 만하지만 최신 표준(예: GPT-4는 128K)에 비해 상당히 작음

- 많은 사람들이 이 축에 대해 더 많은 것을 기대했을 것임. 나중에 파인튜닝으로 가능할지도(?)

학습 데이터

- Llama 2는 2T 개의 토큰으로 학습되었고, Llama 3은 15T 학습 데이터셋으로 증가

- 데이터 품질, 4배 더 많은 코드 토큰, 30개 이상의 언어로 5%의 non-en 토큰에 많은 주의를 기울임

- 5%는 non-en:en 믹스에 비해 상당히 낮아서 이 모델은 대부분 영어 모델임. 그러나 0보다 큰 것은 꽤 좋음

스케일링 법칙

- 15T는 8B 매개변수와 같은 "작은" 모델에 대해 학습하기에 매우 큰 데이터셋이며, 이는 일반적으로 수행되지 않는 새롭고 매우 환영할 만한 일임

- 친칠라 "compute optimal" 포인트에서 8B 모델을 학습시키려면 ~200B 토큰 정도 학습시켜야 함

- 모델 성능에 대한 "bang-for-the-buck"에만 관심이 있다면 이 정도면 충분함

- 하지만 Meta는 그 지점을 ~75배 넘어 학습시켰는데, 이는 비정상적이지만 개인적으로 매우 환영할 만한 일이라고 생각함.

- 우리 모두는 매우 작고 작업하기 쉬우며 추론이 쉬운 매우 유능한 모델을 얻게 됨

- Meta는 이 지점에서도 모델이 표준적인 의미에서 "수렴"하는 것 같지 않다고 언급함

- 즉, 우리가 항상 작업하는 LLM은 100-1000배 이상의 훨씬 더 긴 학습이 부족하며 수렴점에 근접하지 않음

- 앞으로 더 오랫동안 학습되고 훨씬 더 작은 모델을 공개하는 추세가 계속되기를 바람

시스템

- Llama 3는 16K GPU에서 관찰된 처리량이 400 TFLOPS로 학습되었다고 언급됨

- 언급되지는 않았지만 이들이 NVIDIA 마케팅 자료에서 1,979 TFLOPS를 기록하는 H100 fp16이라고 가정

- 하지만 우리는 모두 그들의 작은 별표(*with sparsity)가 많은 일을 하고 있다는 것을 알고 있으며, 실제 TFLOPS를 얻으려면 이 숫자를 2로 나누어 ~990을 얻어야 함

- (Sparsity가 FLOPS로 계산되는 이유는 무엇일까?)

- 어쨌거나 400/990 ~= 40% 활용률로, 그 많은 GPU에서 꽤 나쁘지 않음!

- 이 규모에서 여기에 도달하려면 많은 양의 정말 탄탄한 엔지니어링이 필요함

요약

- Llama 3는 매우 유능해 보이는 모델 릴리스이며 매우 환영할 만함

- 기본에 충실하고, 탄탄한 시스템과 데이터 작업에 많은 시간을 할애하며, 장기 학습 모델의 한계를 탐구함

- 400B 모델도 매우 기대되며, 이는 GPT-4 급의 첫 번째 오픈 소스 릴리스가 될 수 있음

- 많은 사람들이 더 긴 컨텍스트 길이를 요구할 것이라고 생각함

고정닉 10

원본 첨부파일 1

스크린샷 2024-04-20 154129.png

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2858	설문	SNS로 싸우면 절대 안 질 것 같은 고집 있는 스타는?	운영자	24/05/06	-	-
460815	일반	응 gpt5 나와 이 병신들아 [21]	ㅇㅇ	04.29	3088	33
460811	일반	오늘 그냥 잘꺼면 개추 ㅋㅋ [15]	ㅇㅇ(58.29)	04.29	1725	43
460748	일반	내일 무조건 GPT-5 나오는 이유 5가지.jpg [19]	ㅇㅇ(182.230)	04.29	3060	27
460726	정보	또 등장한 '소라'의 한계 지적..."영화 제작은 시기상조" [13]	ㅇㅇ(182.230)	04.29	478	13
460686	정보	깃허브 개발자 "내일 큰 거 온다" [20]	ㅇㅇ(125.191)	04.29	3176	26
460658	정보	제미니 울트라 1.5 [13]	ㅇㅇ(125.191)	04.29	898	15
460650	정보	국내 직장인 셋 중 하나 "생성형 AI 10년 안에 내 업무 대체할 것" [13]	ㅇㅇ(125.191)	04.29	2383	28
460611	정보	2024년 AI 스타트업을 위한 데이터 수집 전략 [3]	ㅇㅇ(182.230)	04.29	1483	21
460626	일반	자본주의는 망해야 함 [24]	ㅇㅇ(58.29)	04.29	1773	34
460621	일반	무어의 법칙 이번에는 진짜 끝났다!! 발전 좆됐다!!! [35]	lightvector	04.29	2980	35
460600	정보	Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5 [4]	ㅇㅇ(182.230)	04.29	721	21
460599	정보	Meta Llama 3 발표후, 첫 일주일간 생긴 일 [2]	ㅇㅇ(182.230)	04.29	1400	26
460583	정보	Figure 60 Minutes 영상 [14]	ㅇㅇ(125.191)	04.29	1096	16
460574	정보	중국의 AI 혁신으로 의사보다 두 배 빠른 속도로 식도암 병변 식별 [6]	ㅇㅇ	04.29	777	17
460165	정보	터미네이터 감독 "AI가 날 대신할 수도…배우는 대체 못 해" [7]	lightvector	04.27	1557	16
460448	정보	사람 음성 받아적는 AI도 '환각' 보여…"없는 말 지어내" [11]	ㅇㅇ(182.230)	04.28	901	15
460400	일반	나도 한명 저격해도 되냐 ㅅㅂ [5]	ㅇㅇ(14.53)	04.28	3002	30
460365	정보	르쿤이형 : 현재 LLM은 여전히 꽤 멍청. 인간수준 못넘을 것 [25]	ㅇㅇ(119.77)	04.28	3159	41
460363	정보	MS Copilot, 사용자 PC 파일 제어 기능 추가 [7]	ㅇㅇ(119.77)	04.28	699	24
460334	일반	근데 진짜 념글처럼 ai겨울인거 맞지 않음? [31]	ㅇㅇ(112.218)	04.28	2784	18
460332	일반	구글 방금 파이썬팀 해고 [39]	ㅇㅇ(125.191)	04.28	3839	21
460316	일반	최근 AI 근황 요약 [33]	ㅇㅇ(218.150)	04.28	4790	58
460315	일반	무뚝뚝한 안드로이드 메이드.manhwa [15]	ㅇㅇ(125.241)	04.28	2123	39
460264	일반	데이비드 샤피로 "올해 1억개의 일자리를 파괴할 gpt-5 agi 기대" [19]	ㅇㅇ(125.191)	04.28	2683	19
460262	일반	양놈들이 보는 'AI 인플루언서' 특 [10]	ㅇㅇ(116.124)	04.28	2879	51
460245	일반	학벌이 뭐가 중요할까요 [36]	좋아해킨드	04.28	2960	29
460233	일반	이새끼들 대학타령 하고 있네 [12]	ㅇㅇ(58.29)	04.28	1944	20
460201	정보	어도비, '파이어플라이 이미지 3' 출시...'포토샵'에 생성 AI 통합 [3]	ㅇㅇ(182.230)	04.28	1210	15
460139	일반	클린 념글 보는 법 [8]	SMN	04.27	1797	28
460091	정보	OpenAI 소라 경쟁 Vidu 출시 [23]	선갤러(125.191)	04.27	2551	28
460089	일반	독일 재생에너지 50% 넘음 [20]	ㅇㅇ(220.73)	04.27	1162	16
460088	정보	전 FDA 국장 "생명공학의 변곡점이 오고 있다" [23]	선갤러(125.191)	04.27	3356	35
460036	정보	애플, 오픈AI와 협상 재개...'시리'에 '챗GPT' 통합 추진할 듯 [12]	ㅇㅇ(182.230)	04.27	561	12
460011	일반	국내연구진은 거른다면서 [48]	ㅇㅇ(114.205)	04.27	3100	74
460002	역노화	피세틴 임상 2a상 시작 했습니다. [74]	좋아해킨드	04.27	3506	38
459997	일반	오픈 ai 지하실 상황 [5]	ㅇㅇ(1.229)	04.27	3962	31
459992	일반	뒤에서 지랄 떨지 말고 맞다이로 gpt5 들어와	ㅇㅇ(110.46)	04.27	1847	32
459964	일반	AI 안전 및 보안위원회 명단 [4]	ㅇㅇ(125.191)	04.26	944	13
459936	일반	죽는거에요???? [19]	ㅇㅇ	04.26	4218	69
459930	정보	생생한 Sora 실사용 후기 [29]	ㅇㅇ(119.77)	04.26	3998	40
459925	정보	모더나 ceo "3~5년 안에 대부분 질병 이해" [30]	특술람	04.26	3513	48
459884	정보	Astribot S1 로봇 [2]	ㅇㅇ(125.191)	04.26	185	12
459876	정보	딥마인드, 미세조정 없이 성능 개선하는 ‘다중샷 상황 내 학습’ 공개 [11]	ㅇㅇ(182.230)	04.26	1894	26
459870	정보	MS·구글, 클라우드 성장으로 실적 양호..."메타 같은 사태 피했다" [1]	ㅇㅇ(182.230)	04.26	1211	17
459866	정보	글로벌 CIO "AI 투자 증가 96%, 2년내 수익률 입증 가능성 X" [2]	ㅇㅇ(182.230)	04.26	1309	20
459861	정보	찍이점) 줄기세포로 뇌 신경세포도 재생...돌이킬 수 없는 뇌손상 고칠까 [12]	ㅇㅇ(182.230)	04.26	1944	22
459859	정보	세계 두번째 유전자 조작 돼지 신장 사람에 이식 성공 [1]	ㅇㅇ(182.230)	04.26	1036	22
459855	정보	"배터리, 더이상 일회용품 아냐…소듐·전고체·리튬황 배터리 부상" [4]	ㅇㅇ(182.230)	04.26	968	13
459854	정보	로봇은 왜 동물보다 빨리 달리지 못할까 [8]	ㅇㅇ(182.230)	04.26	1361	15
459853	정보	호주, 재생 에너지로 1분기 전력 3분의 1 이상 생산 [16]	ㅇㅇ(182.230)	04.26	1016	15