디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보글] 관찰 스케일링 법칙과 언어모델 성능의 예측 가능성

특술람갤로그로 이동합니다. 2024.05.20 12:59:25
조회 65 추천 1 댓글 0
														

https://arxiv.org/abs/2405.10938


https://x.com/_jasonwei/status/1792401639552565496

 


요약

1. 개요

언어 모델의 성능이 규모에 따라 어떻게 변하는지 이해하는 것은 매우 중요합니다. 기존의 스케일링 법칙은 모델을 다양한 규모로 훈련하는 것을 요구하지만, 이는 매우 많은 컴퓨팅 자원을 필요로 합니다. 이 논문에서는 모델 훈련을 거치지 않고 약 80개의 공개된 모델을 활용하여 스케일링 법칙을 구축하는 관찰적 접근법을 제안합니다.


2. 주요 아이디어


관찰적 스케일링 법칙: 여러 모델 패밀리의 성능을 결합하여 스케일링 법칙을 만들기 위해 훈련 컴퓨팅 효율성을 단순화된 스케일링 법칙으로 일반화합니다.


저차원 능력 공간: 언어 모델의 성능은 저차원 능력 공간의 함수로 나타낼 수 있으며, 모델 패밀리 간의 훈련 효율성은 이러한 능력으로의 변환 효율성에서만 차이가 있습니다.


모델 성능 예측: 작은 모델을 이용해 더 큰 모델의 복잡한 스케일링 현상을 예측할 수 있습니다. 예를 들어, GPT-4와 같은 모델의 성능은 간단한 비에이전트 벤치마크를 통해 정확하게 예측할 수 있습니다.


3. 실험 및 결과

능력 공간 분석: 여러 표준 벤치마크를 통해 언어 모델의 저차원 능력 공간을 식별했습니다. 이는 모델의 훈련 플롭스(FLOPs)와 강한 상관관계를 보였습니다.


예측 정확도: 작은 모델을 이용해 큰 모델의 스케일링 현상을 예측하는 실험에서 높은 예측 정확도를 보였습니다. 예를 들어, 특정 모델의 "에이전트" 능력은 GPT-3.5 이하의 모델을 통해 GPT-4의 성능을 정확히 예측할 수 있었습니다.


포스트 트레이닝 기법의 스케일링: Chain-of-Thought나 Self-Consistency 같은 포스트 트레이닝 기법의 효과를 스케일링 법칙을 통해 예측할 수 있음을 보여주었습니다.


4. 결론

이 논문은 관찰적 스케일링 법칙이 기존의 컴퓨팅 스케일링 법칙을 일반화할 수 있으며, 이를 통해 다양한 모델 패밀리를 활용한 저비용, 고해상도의 스케일링 예측이 가능하다는 것을 보여줍니다. 이러한 접근법은 언어 모델의 성능 예측을 더 정확하게 하고, 미래의 모델 개발과 벤치마크 구축에 중요한 통찰을 제공할 수 있습니다.


이 논문은 특히 새로운 모델이 나왔을 때 그 성능을 예측하거나, 기존의 모델에 포스트 트레이닝 기법을 적용할 때 그 효과를 예측하는 데 유용할 수 있습니다.


0a93ef2ee9da31a45b9ef7ad02fd0373042e7f496ae9a7b2ec6f8ae621a92f


2caed420abc236a14e81d2b628f1706b89ba2f





3ab8d968f5dc3f8650bbd58b36807469ff9ecb






추천 비추천

1

고정닉 0

1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2868 설문 힘들게 성공한 만큼 절대 논란 안 만들 것 같은 스타는? 운영자 24/06/10 - -
2870 이슈 [디시人터뷰] 웃는 모습이 예쁜 누나, 아나운서 김나정 운영자 24/06/11 - -
17795 일반 와 ai 하드도약하는 [3] 선갤러(125.191) 01:09 39 0
17794 일반 내일 특이점이 올 가능성은 50% 인안나갤로그로 이동합니다. 06.12 28 2
17793 일반 특갤은 e/acc갤처럼 운영해야져 ㅇㅅㅇ 완장진의 잘못 ㅇㅅㅇ [1] 선갤러(122.36) 06.12 32 0
17792 일반 2024년은 그냥 적용시키는해에여 ㅇㅅㅇ [1] 선갤러(122.36) 06.12 35 0
17791 일반 ai 버블론이 생기는 이유 ㅇㅅㅇ 선갤러(122.36) 06.12 43 2
17790 일반 특갤이 분탕쭝쭝이가 늘어난 이유 ㅇㅅㅇ [4] 선갤러(122.36) 06.12 46 0
17789 일반 제 agi 타임라인 : 2500년 ㅇㅅㅇ [1] 선갤러(122.36) 06.12 34 0
17788 일반 엔비디아, 지난해 데이터센터용 GPU 376만개 출하..."AI 서버칩 [2] ㅇㅇ갤로그로 이동합니다. 06.12 30 0
17787 일반 얀르쿤은 제파니 대파니 미느라 억지로 llm 음해하는거구여 ㅇㅅㅇ 선갤러(122.36) 06.12 23 0
17786 일반 안녕하세여 애플 주식 오른건 잘 드셧나여 ㅇㅅㅇ [1] 선갤러(122.36) 06.12 23 0
17785 일반 24년 절반이 지났지만 바뀐건 없었구요~ [1] 선갤러(211.234) 06.12 49 4
17784 일반 애플 AI가 LLM의 가능성을 잘 보여줌 [2] ㅇㅇ(220.89) 06.12 132 16
17782 일반 Agi좀 나오셈 [10] ㅇㅇ갤로그로 이동합니다. 06.12 86 1
17781 일반 특갤 이제서야 눈치채려고 하는 것 같네 [1] shuwa갤로그로 이동합니다. 06.12 95 1
17780 일반 서울에서 군복‏무 한게 은수저가 아니면 머임? [1] 선갤러(1.229) 06.12 34 0
17779 일반 갤 럭 시 = 찐 따 폰 임 [2] 선갤러(219.250) 06.12 57 1
17778 일반 OpenAI 의도치 않은 혼란을 명확히 하고 싶습니다. [1] ㅇㅇ(125.191) 06.12 92 1
17777 일반 오늘 탕수육 좀 눅눅했다고 발표 '식감이 느껴진다' [2] ㅇㅇ(211.234) 06.12 130 14
17776 정보글 새로운 연구에 따르면 우리 뇌 물질은 상전이 상태에 갇혀 있다고 합니다. [3] ㅇㅇ(125.191) 06.12 67 1
17775 일반 부매니저 내놓으셈 [4] 특술람갤로그로 이동합니다. 06.12 130 2
17773 일반 다른 건 모르겠고 왜 챗GPT는 자꾸 소설을 쓰냐? [9] 선갤러(211.207) 06.12 82 0
17772 정보글 Sora와 Kling보다 큰 거 오는중 [2] ㅇㅇ(125.191) 06.12 119 1
17771 정보글 구글 RecurrentGemma 9B 오픈모델 발표 ㅇㅇ(125.191) 06.12 34 1
17770 일반 특술람 125.191 씹련들아 특갤로 꺼져 [8] ㅇㅇ(119.201) 06.12 178 13
17769 일반 어둠의 특붕이가 될 것임 [4] 특술람갤로그로 이동합니다. 06.12 113 3
17768 정보글 간단하고 효과적인 마스크 확산 언어 모델 특술람갤로그로 이동합니다. 06.12 32 0
17767 정보글 Samba: 효율적인 무제한 컨텍스트 언어 모델링을 위한 간단한 하이브리 특술람갤로그로 이동합니다. 06.12 23 0
17766 일반 게이 거지와일 ㅇㅇ(106.101) 06.12 24 0
17765 정보글 MCTSr를 통해 LaMa-3 8B를 올림피아드 솔루션에 자체 개선 특술람갤로그로 이동합니다. 06.12 29 2
17764 정보글 이미지는 재구성 및 생성을 위해 32개의 토큰만큼 가치가 있습니다. 특술람갤로그로 이동합니다. 06.12 27 1
17763 정보글 적대적 튜닝: LLM에 대한 탈옥 공격으로부터 방어 특술람갤로그로 이동합니다. 06.12 18 0
17762 정보글 Vision에서 Mamba를 사용한 자동회귀 사전 훈련 특술람갤로그로 이동합니다. 06.12 14 0
17761 정보글 VideoLLaMA 2: Video-LLM의 공간-시간 모델링 및 오디오 특술람갤로그로 이동합니다. 06.12 12 0
17760 정보글 자동화된 프로세스 감독을 통해 언어모델의 수학적 추론 개선 특술람갤로그로 이동합니다. 06.12 25 2
17759 일반 뭔가를 잘혀내는 것을 능지로 규정하려는게 문제. 병신®갤로그로 이동합니다. 06.12 57 9
17758 정보글 DeepMind, 인공 두뇌를 갖춘 가상 쥐 공개 [1] 특술람갤로그로 이동합니다. 06.12 63 3
17757 일반 미드저니 모델 개인화기능 출시 특술람갤로그로 이동합니다. 06.12 39 0
17755 일반 트위터를 확인해도 무슨 일이 일어나고 있는지 알 수 없을 것 [4] ㅇㅇ(125.191) 06.12 70 0
17754 일반 선형충들은 직접 경험하기 전에는 [3] ㅇㅇ(125.191) 06.12 77 0
17753 일반 제 정보글이 더 유용할것같음 [3] ㅇㅇ(211.234) 06.12 127 16
17752 일반 공장에서 자율적으로 작업을 수행하는 Optimus 봇 2대 배치 ㅇㅇ(125.191) 06.12 31 0
17751 정보글 수학계 대통일 이론 '랭글랜즈 프로그램' 한발짝…30년 난제 해결 ㅇㅇ(125.191) 06.12 29 0
17750 일반 데미스 하사비스가 agi 타임라인을 말하지 않는 이유 [1] ㅇㅇ(125.191) 06.12 55 1
17749 일반 선형충들은 특갤로 가셈 선갤러(125.191) 06.12 69 1
17748 정보글 OpenAI, Oracle 협력 발표 선갤러(125.191) 06.12 39 0
17747 일반 선형충 연전연승 [2] 선갤러(211.234) 06.12 59 5
17746 일반 피카랩스 새로운 text to video 모델 발표 선갤러(125.191) 06.12 35 1
17745 일반 상황이 심각해지고 있는데 [3] 선갤러(125.191) 06.12 102 0
17744 정보글 프랑슈아 숄레 ARC-AGI 벤치 선갤러(125.191) 06.12 35 0
17743 정보글 Gemini 업데이트 18일로 연기 [4] 선갤러(125.191) 06.12 51 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2