관찰 스케일링 법칙과 언어모델 성능의 예측 가능성

선형주의 갤러리
미니

흥한갤 130위

기술적 특이점을 주제로 특이점주의자 선형주의자 모두 손에 손잡고 자유롭게 이야기 나누는곳.

매니저

IIlI(sunhc)

부매니저

ㅇㅇ(091n0fu9…)

개설일

2021-06-22

[정보글] 관찰 스케일링 법칙과 언어모델 성능의 예측 가능성

특술람

2024.05.20 12:59:25

조회 65 추천 1 댓글 0

https://arxiv.org/abs/2405.10938

https://x.com/_jasonwei/status/1792401639552565496

X (formerly Twitter)

X (formerly Twitter)

x.com

요약

1. 개요

언어 모델의 성능이 규모에 따라 어떻게 변하는지 이해하는 것은 매우 중요합니다. 기존의 스케일링 법칙은 모델을 다양한 규모로 훈련하는 것을 요구하지만, 이는 매우 많은 컴퓨팅 자원을 필요로 합니다. 이 논문에서는 모델 훈련을 거치지 않고 약 80개의 공개된 모델을 활용하여 스케일링 법칙을 구축하는 관찰적 접근법을 제안합니다.

2. 주요 아이디어

관찰적 스케일링 법칙: 여러 모델 패밀리의 성능을 결합하여 스케일링 법칙을 만들기 위해 훈련 컴퓨팅 효율성을 단순화된 스케일링 법칙으로 일반화합니다.

저차원 능력 공간: 언어 모델의 성능은 저차원 능력 공간의 함수로 나타낼 수 있으며, 모델 패밀리 간의 훈련 효율성은 이러한 능력으로의 변환 효율성에서만 차이가 있습니다.

모델 성능 예측: 작은 모델을 이용해 더 큰 모델의 복잡한 스케일링 현상을 예측할 수 있습니다. 예를 들어, GPT-4와 같은 모델의 성능은 간단한 비에이전트 벤치마크를 통해 정확하게 예측할 수 있습니다.

3. 실험 및 결과

능력 공간 분석: 여러 표준 벤치마크를 통해 언어 모델의 저차원 능력 공간을 식별했습니다. 이는 모델의 훈련 플롭스(FLOPs)와 강한 상관관계를 보였습니다.

예측 정확도: 작은 모델을 이용해 큰 모델의 스케일링 현상을 예측하는 실험에서 높은 예측 정확도를 보였습니다. 예를 들어, 특정 모델의 "에이전트" 능력은 GPT-3.5 이하의 모델을 통해 GPT-4의 성능을 정확히 예측할 수 있었습니다.

포스트 트레이닝 기법의 스케일링: Chain-of-Thought나 Self-Consistency 같은 포스트 트레이닝 기법의 효과를 스케일링 법칙을 통해 예측할 수 있음을 보여주었습니다.

4. 결론

이 논문은 관찰적 스케일링 법칙이 기존의 컴퓨팅 스케일링 법칙을 일반화할 수 있으며, 이를 통해 다양한 모델 패밀리를 활용한 저비용, 고해상도의 스케일링 예측이 가능하다는 것을 보여줍니다. 이러한 접근법은 언어 모델의 성능 예측을 더 정확하게 하고, 미래의 모델 개발과 벤치마크 구축에 중요한 통찰을 제공할 수 있습니다.

이 논문은 특히 새로운 모델이 나왔을 때 그 성능을 예측하거나, 기존의 모델에 포스트 트레이닝 기법을 적용할 때 그 효과를 예측하는 데 유용할 수 있습니다.

0a93ef2ee9da31a45b9ef7ad02fd0373042e7f496ae9a7b2ec6f8ae621a92f

2caed420abc236a14e81d2b628f1706b89ba2f

3ab8d968f5dc3f8650bbd58b36807469ff9ecb

고정닉 0

원본 첨부파일 3본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2868	설문	힘들게 성공한 만큼 절대 논란 안 만들 것 같은 스타는?	운영자	24/06/10	-	-
2870	이슈	[디시人터뷰] 웃는 모습이 예쁜 누나, 아나운서 김나정	운영자	24/06/11	-	-
17795	일반	와 ai 하드도약하는 [3]	선갤러(125.191)	01:09	39	0
17794	일반	내일 특이점이 올 가능성은 50%	인안나	06.12	28	2
17793	일반	특갤은 e/acc갤처럼 운영해야져 ㅇㅅㅇ 완장진의 잘못 ㅇㅅㅇ [1]	선갤러(122.36)	06.12	32	0
17792	일반	2024년은 그냥 적용시키는해에여 ㅇㅅㅇ [1]	선갤러(122.36)	06.12	35	0
17791	일반	ai 버블론이 생기는 이유 ㅇㅅㅇ	선갤러(122.36)	06.12	43	2
17790	일반	특갤이 분탕쭝쭝이가 늘어난 이유 ㅇㅅㅇ [4]	선갤러(122.36)	06.12	46	0
17789	일반	제 agi 타임라인 : 2500년 ㅇㅅㅇ [1]	선갤러(122.36)	06.12	34	0
17788	일반	엔비디아, 지난해 데이터센터용 GPU 376만개 출하..."AI 서버칩 [2]	ㅇㅇ	06.12	30	0
17787	일반	얀르쿤은 제파니 대파니 미느라 억지로 llm 음해하는거구여 ㅇㅅㅇ	선갤러(122.36)	06.12	23	0
17786	일반	안녕하세여 애플 주식 오른건 잘 드셧나여 ㅇㅅㅇ [1]	선갤러(122.36)	06.12	23	0
17785	일반	24년 절반이 지났지만 바뀐건 없었구요~ [1]	선갤러(211.234)	06.12	49	4
17784	일반	애플 AI가 LLM의 가능성을 잘 보여줌 [2]	ㅇㅇ(220.89)	06.12	132	16
17782	일반	Agi좀 나오셈 [10]	ㅇㅇ	06.12	86	1
17781	일반	특갤 이제서야 눈치채려고 하는 것 같네 [1]	shuwa	06.12	95	1
17780	일반	서울에서 군복‏무 한게 은수저가 아니면 머임? [1]	선갤러(1.229)	06.12	34	0
17779	일반	갤 럭 시 = 찐 따 폰 임 [2]	선갤러(219.250)	06.12	57	1
17778	일반	OpenAI 의도치 않은 혼란을 명확히 하고 싶습니다. [1]	ㅇㅇ(125.191)	06.12	92	1
17777	일반	오늘 탕수육 좀 눅눅했다고 발표 '식감이 느껴진다' [2]	ㅇㅇ(211.234)	06.12	130	14
17776	정보글	새로운 연구에 따르면 우리 뇌 물질은 상전이 상태에 갇혀 있다고 합니다. [3]	ㅇㅇ(125.191)	06.12	67	1
17775	일반	부매니저 내놓으셈 [4]	특술람	06.12	130	2
17773	일반	다른 건 모르겠고 왜 챗GPT는 자꾸 소설을 쓰냐? [9]	선갤러(211.207)	06.12	82	0
17772	정보글	Sora와 Kling보다 큰 거 오는중 [2]	ㅇㅇ(125.191)	06.12	119	1
17771	정보글	구글 RecurrentGemma 9B 오픈모델 발표	ㅇㅇ(125.191)	06.12	34	1
17770	일반	특술람 125.191 씹련들아 특갤로 꺼져 [8]	ㅇㅇ(119.201)	06.12	178	13
17769	일반	어둠의 특붕이가 될 것임 [4]	특술람	06.12	113	3
17768	정보글	간단하고 효과적인 마스크 확산 언어 모델	특술람	06.12	32	0
17767	정보글	Samba: 효율적인 무제한 컨텍스트 언어 모델링을 위한 간단한 하이브리	특술람	06.12	23	0
17766	일반	게이 거지와일	ㅇㅇ(106.101)	06.12	24	0
17765	정보글	MCTSr를 통해 LaMa-3 8B를 올림피아드 솔루션에 자체 개선	특술람	06.12	29	2
17764	정보글	이미지는 재구성 및 생성을 위해 32개의 토큰만큼 가치가 있습니다.	특술람	06.12	27	1
17763	정보글	적대적 튜닝: LLM에 대한 탈옥 공격으로부터 방어	특술람	06.12	18	0
17762	정보글	Vision에서 Mamba를 사용한 자동회귀 사전 훈련	특술람	06.12	14	0
17761	정보글	VideoLLaMA 2: Video-LLM의 공간-시간 모델링 및 오디오	특술람	06.12	12	0
17760	정보글	자동화된 프로세스 감독을 통해 언어모델의 수학적 추론 개선	특술람	06.12	25	2
17759	일반	뭔가를 잘혀내는 것을 능지로 규정하려는게 문제.	병신®	06.12	57	9
17758	정보글	DeepMind, 인공 두뇌를 갖춘 가상 쥐 공개 [1]	특술람	06.12	63	3
17757	일반	미드저니 모델 개인화기능 출시	특술람	06.12	39	0
17755	일반	트위터를 확인해도 무슨 일이 일어나고 있는지 알 수 없을 것 [4]	ㅇㅇ(125.191)	06.12	70	0
17754	일반	선형충들은 직접 경험하기 전에는 [3]	ㅇㅇ(125.191)	06.12	77	0
17753	일반	제 정보글이 더 유용할것같음 [3]	ㅇㅇ(211.234)	06.12	127	16
17752	일반	공장에서 자율적으로 작업을 수행하는 Optimus 봇 2대 배치	ㅇㅇ(125.191)	06.12	31	0
17751	정보글	수학계 대통일 이론 '랭글랜즈 프로그램' 한발짝…30년 난제 해결	ㅇㅇ(125.191)	06.12	29	0
17750	일반	데미스 하사비스가 agi 타임라인을 말하지 않는 이유 [1]	ㅇㅇ(125.191)	06.12	55	1
17749	일반	선형충들은 특갤로 가셈	선갤러(125.191)	06.12	69	1
17748	정보글	OpenAI, Oracle 협력 발표	선갤러(125.191)	06.12	39	0
17747	일반	선형충 연전연승 [2]	선갤러(211.234)	06.12	59	5
17746	일반	피카랩스 새로운 text to video 모델 발표	선갤러(125.191)	06.12	35	1
17745	일반	상황이 심각해지고 있는데 [3]	선갤러(125.191)	06.12	102	0
17744	정보글	프랑슈아 숄레 ARC-AGI 벤치	선갤러(125.191)	06.12	35	0
17743	정보글	Gemini 업데이트 18일로 연기 [4]	선갤러(125.191)	06.12	51	1