디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

애플, 2.5조 개 토큰으로 훈련된 7B 오픈소스 언어 모델 공개

GPTMAGAZINE갤로그로 이동합니다. 2024.07.23 10:04:10
조회 3268 추천 2 댓글 0




🔼 DCLM의 도입 배경
🔼 데이터 큐레이션의 중요성
🔼 2.5조 토큰 훈련 과정








언어 모델(LM)은 텍스트 생성, 번역, 감정 분석 등 자연어 처리(NLP)의 핵심 요소로 자리잡고 있다. 이러한 모델들은 정확하고 효율적으로 작동하기 위해 방대한 양의 훈련 데이터가 필요하다. 하지만 데이터셋의 품질과 큐레이션은 모델 성능에 결정적인 영향을 미친다. 이 분야는 모델의 효과를 높이기 위해 데이터 수집 및 준비 방법을 개선하는 데 초점을 맞추고 있다.


언어 모델 개발의 주요 과제 중 하나는 훈련 데이터셋을 개선하는 것이다. 고품질 데이터셋은 다양한 작업에서 모델이 잘 일반화할 수 있도록 하는 데 필수적이다. 하지만 이러한 데이터셋을 만드는 것은 복잡한 작업으로, 관련 없는 또는 유해한 콘텐츠를 필터링하고 중복을 제거하며 가장 유용한 데이터 소스를 선택해야 한다.


기존의 데이터셋 큐레이션 방법은 주로 휴리스틱 기반 필터링, 중복 제거 및 광범위한 웹 크롤링에서 데이터를 수집하는 방식이다. 이러한 방법들은 어느 정도 성공을 거두었지만, 표준화된 벤치마크가 부족해 언어 모델 성능 평가의 일관성이 떨어진다. 이로 인해 가장 효과적인 데이터 큐레이션 전략을 결정하기 어려워지고, 이는 분야의 발전을 저해한다.


애플, 워싱턴 대학교 및 여러 기관의 연구원들은 이러한 문제를 해결하기 위해 데이터컴프(DataComp) 언어 모델(DCLM)을 도입했다. 최근 연구진은 Hugging Face 플랫폼에서 DCIM 모델과 데이터셋을 오픈소스로 공개했다. 이번 공개에는 DCLM-7B, DCLM-1B, dclm-7b-it, DCLM-7B-8k, dclm-baseline-1.0, dclm-baseline-1.0-parquet 등이 포함됐다. 이 혁신적인 테스트베드는 대규모 데이터셋을 통해 언어 모델을 개선하기 위한 통제된 실험을 가능하게 한다. DCLM 프레임워크는 Common Crawl에서 수집한 240조 개의 토큰, OpenLM 프레임워크 기반의 효과적인 프리트레이닝 레시피, 그리고 53개의 다운스트림 평가를 포함하는 종합적인 코퍼스를 제공한다. 이를 통해 데이터셋 큐레이션에 대한 일관된 접근 방식을 제공해 일관되고 비교 가능한 실험을 가능하게 한다.


DCLM은 연구자들에게 구조화된 워크플로우를 제공한다. 참가자들은 412M에서 7B 파라미터에 이르는 다양한 규모를 선택할 수 있으며, 중복 제거, 필터링 및 데이터 혼합과 같은 데이터 큐레이션 전략을 실험할 수 있다. 연구자들은 표준화된 훈련 레시피와 특정 하이퍼파라미터를 사용해 큐레이션된 데이터셋으로 모델을 훈련시킬 수 있으며, 이러한 모델의 성능은 일련의 다운스트림 작업에서 평가된다. 이를 통해 데이터셋의 품질을 명확히 측정할 수 있다. 이러한 체계적인 접근 방식은 가장 효과적인 데이터 큐레이션 전략을 식별하는 데 도움이 된다.


DCLM의 도입은 언어 모델 훈련에 상당한 개선을 가져왔다. 예를 들어, DCLM을 사용해 생성된 기본 데이터셋은 7B 파라미터 언어 모델을 처음부터 훈련시키는 데 사용됐다. 이 모델은 MMLU 벤치마크에서 5-shot 정확도 64%를 달성했으며, 이는 이전의 최고 수준의 오픈 데이터 언어 모델인 MAP-Neo보다 6.6%포인트 향상된 수치다. 또한 DCLM 기본 모델은 Mistral-7B-v0.3 및 Llama 3 8B와 비교할 만한 성능을 보여줬으며, 이는 상당히 더 적은 컴퓨팅 자원을 사용했다.


DCLM 프레임워크의 효과는 확장성에서도 확인할 수 있다. 연구진은 Common Crawl에서 수집한 240조 개의 토큰을 사용해 DCLM-Pool이라는 코퍼스를 통해 400M에서 7B 파라미터를 초과하는 다양한 규모의 실험을 수행했다. 이러한 실험은 고품질 훈련 세트를 구성하는 데 있어 모델 기반 필터링의 중요한 역할을 강조했다. 엄격한 과정을 통해 생성된 DCLM 기본 데이터셋은 RefinedWeb 및 RedPajama와 같은 다른 오픈 소스 데이터셋을 다양한 평가에서 지속적으로 능가했다.


연구팀은 또한 다양한 데이터 큐레이션 기술의 영향을 탐구했다. 이들은 resiliparse 및 trafilatura와 같은 텍스트 추출 방법을 비교했으며, 이러한 접근 방식이 Common Crawl의 사전 추출된 텍스트보다 다운스트림 성능을 크게 개선하는 것을 발견했다. 팀은 여러 모델 기반 품질 필터링 전략을 조사했으며, 결국 fastText OH-2.5 + ELI5 분류기가 가장 효과적이라는 결론을 내렸다. 이는 정확도에서 상당한 향상을 제공했다.


결론적으로, DCLM의 도입은 연구자들이 통제된 실험을 통해 언어 모델을 개선하기 위한 가장 효과적인 전략을 식별할 수 있도록 표준화되고 체계적인 접근 방식을 제공한다. DCLM 프레임워크는 데이터셋 품질에 대한 새로운 기준을 설정하며, 적은 컴퓨팅 자원으로도 성능을 크게 향상시킬 수 있는 잠재력을 보여준다.










지피티매거진_로고.png


◎GPT매거진 (https://www.gptmagazine.net)
지피티 기자 : gptmagazinebiz@gmail.com
카카오 오픈채팅방 : https://open.kakao.com/o/gLI8Wetf
페이스북 그룹 : https://www.facebook.com/groups/392367786704067

추천 비추천

2

고정닉 0

5

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 끝까지 다 본 걸 후회하게 만든 용두사미 드라마는? 운영자 25/07/07 - -
791 미국 AI 규제 법안의 이면…배넌과 트럼프 법률팀의 압박이 판세 갈랐다 GPTMAGAZINE갤로그로 이동합니다. 07.12 326 0
790 2025년 상반기 벤처 투자 절반 이상이 AI로…VC 자금 'AI 쏠림' 심화 GPTMAGAZINE갤로그로 이동합니다. 07.10 49 0
789 AI 법률 스타트업 Eudia, Johnson Hana 인수…하이브리드 서비스 확장 본격화 GPTMAGAZINE갤로그로 이동합니다. 07.10 48 0
788 구글의 검색 패러다임 변화…AI 최적화 스타트업들 새 시장 개척 중 GPTMAGAZINE갤로그로 이동합니다. 07.10 52 0
787 AI 규제 주도권 재편…빅테크, 연방 차원의 AI 법제화 다시 촉구 GPTMAGAZINE갤로그로 이동합니다. 07.10 41 0
786 AI 칩 스타트업 Groq, 60억 달러 기업 가치 목표로 투자 협상 중 GPTMAGAZINE갤로그로 이동합니다. 07.10 45 0
785 캐나다 AI 핀테크 기업 Conquest Planning, 8000만 달러 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 07.08 72 0
784 유럽 주요 기업들, “AI법 최소 2년 연기하라”…EU에 공식 요구 GPTMAGAZINE갤로그로 이동합니다. 07.08 76 0
783 미국 상원, AI 규제 금지 조항 전격 철회…주정부 권한 유지 결정 GPTMAGAZINE갤로그로 이동합니다. 07.08 6486 2
782 Y콤비네이터, 미국 정부의 EU 디지털시장법 개입 시도에 반대 GPTMAGAZINE갤로그로 이동합니다. 07.08 65 0
781 유럽 대기업 CEO들, AI법 시행 연기 촉구…“혁신 저해 우려” [2] GPTMAGAZINE갤로그로 이동합니다. 07.08 6063 1
780 음성 AI 스타트업 Wispr Flow, 3천만 달러 투자 유치…“키보드 없는 미래를 향해” GPTMAGAZINE갤로그로 이동합니다. 07.07 68 0
779 미국 상원, AI 규제 금지 조항 전격 철회…주정부 권한 살아났다 GPTMAGAZINE갤로그로 이동합니다. 07.07 59 0
778 마이크로소프트, 자체 AI 칩 ‘Braga’ 출시 2026년으로 연기 GPTMAGAZINE갤로그로 이동합니다. 07.07 59 0
777 메타, AI 챗봇에 ‘먼저 말 거는’ 기능 실험 중…AI가 대화 시작한다 GPTMAGAZINE갤로그로 이동합니다. 07.07 63 0
776 구글, 개발자 위한 ‘Gemini CLI’ 공개…터미널 환경에 AI 직접 연결 GPTMAGAZINE갤로그로 이동합니다. 07.07 56 0
775 ERP도 AI 시대…헤드리스 ERP 스타트업 Tailor, 2,200만 달러 시리즈 A 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 07.06 57 0
774 전자상거래 AI 챗봇 스타트업 Remark, 1,600만 달러 시리즈 A 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 07.06 54 0
773 유럽 AI 스타트업 Lovable, 20억 달러 기업가치로 1억 5000만 달러 투자 유치 추진 GPTMAGAZINE갤로그로 이동합니다. 07.06 58 0
772 Y콤비네이터 졸업생이 만든 스타트업 전용 펀드, 3400만 달러 규모로 조성 GPTMAGAZINE갤로그로 이동합니다. 07.06 49 0
771 로봇을 위한 AI 모델 만든다…Genesis AI, 1억 500만 달러 시드 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 07.06 5991 0
770 AI 스타트업 공장 Audos, 매년 10만 개 스타트업 생산하겠다는 계획 발표 [1] GPTMAGAZINE갤로그로 이동합니다. 07.05 99 0
769 입 모양만으로 글 쓰는 시대…AI 음성 입력 앱 ‘Wispr Flow’, 3천만 달러 투자 유치 [3] GPTMAGAZINE갤로그로 이동합니다. 07.05 7880 0
768 애플, AI 탑재한 ‘Shortcuts’ 앱 공개…작업 흐름 자동화에 생성형 AI 결합 GPTMAGAZINE갤로그로 이동합니다. 07.05 66 0
767 “모든 걸 커닝하라” 슬로건 내건 AI 스타트업 Cluely, 1,500만 달러 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 07.05 82 0
766 머스크의 xAI, 부채·지분 합쳐 100억 달러 자금 조달…초대형 투자 성사 GPTMAGAZINE갤로그로 이동합니다. 07.05 44 0
765 구글, 인터넷 없이 작동하는 로봇용 ‘Gemini’ AI 모델 발표 GPTMAGAZINE갤로그로 이동합니다. 06.28 127 0
764 미국 상원, 주정부 AI 규제 금지하는 ‘모라토리엄 법안’ 처리 문턱 넘어 GPTMAGAZINE갤로그로 이동합니다. 06.26 125 0
763 구글, Chromebook Plus에 AI 기능 대거 탑재…생산성과 창의성 동시 강화 [6] GPTMAGAZINE갤로그로 이동합니다. 06.26 6893 5
762 Synthflow AI, 코딩 없이 AI 음성 봇 만드는 시대 연다…누적 4,500만 콜 처리 GPTMAGAZINE갤로그로 이동합니다. 06.26 94 0
761 속삭이면 타이핑된다…AI 음성 입력 앱 Wispr Flow, 3천만 달러 시리즈 A 투자 유치 [1] GPTMAGAZINE갤로그로 이동합니다. 06.26 2170 0
760 AI 의료 기록 스타트업 Abridge, 3억 달러 투자 유치…기업가치 53억 달러로 급등 GPTMAGAZINE갤로그로 이동합니다. 06.26 85 0
759 Lyft 내부 데이터 처리 문제에서 탄생한 Eventual, 멀티모달 인프라 혁신 시도 GPTMAGAZINE갤로그로 이동합니다. 06.24 81 0
758 기업 지출 자동화 플랫폼 Ramp, 2억 달러 시리즈 E 투자 유치…기업가치 160억 달러 돌파 GPTMAGAZINE갤로그로 이동합니다. 06.22 99 0
757 AI 칩 스타트업 Speedata, 4400만 달러 시리즈 B 유치…Nvidia에 도전장 GPTMAGAZINE갤로그로 이동합니다. 06.22 634 0
756 Mira Murati, 초거대 AI 스타트업 ‘Thinking Machines Lab’ 설립…20억 달러 시드 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 06.22 97 0
755 Crosby, AI 기반 로펌 출범…580만 달러 시드 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 06.22 95 0
754 Cluely, 1,500만 달러 투자 유치…AI 기반 인터뷰 및 시험 준비 도우미로 주목 GPTMAGAZINE갤로그로 이동합니다. 06.22 107 0
753 엔비디아, AI 투자 제국 확대…로봇부터 LLM까지 전략적 포트폴리오 구축 GPTMAGAZINE갤로그로 이동합니다. 06.20 129 0
752 전 Stripe 임원 창업 스타트업 Multiplier, 2,750만 달러 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 06.20 113 0
751 Applied Intuition, 6억 달러 투자 유치…자율주행 넘어 국방 기술로 확장 GPTMAGAZINE갤로그로 이동합니다. 06.20 115 0
750 뉴욕주, AI 재난 방지법 통과…AI 사고 시 개발사 책임 묻는다 GPTMAGAZINE갤로그로 이동합니다. 06.20 109 0
749 LMArena, 1억 달러 시드 투자 유치…AI 모델 성능 벤치마킹 플랫폼 주목 GPTMAGAZINE갤로그로 이동합니다. 06.20 104 0
748 YC 데모데이, AI 스타트업 절반 이상 차지…‘Cursor for X’ 붐 본격화 GPTMAGAZINE갤로그로 이동합니다. 06.18 151 0
747 Thunder Code, AI 기반 QA 자동화로 900만 달러 시드 투자 유치 GPTMAGAZINE갤로그로 이동합니다. 06.18 142 0
746 Vast Data, 250억 달러 기업가치 목표로 신규 투자 유치 나선다 GPTMAGAZINE갤로그로 이동합니다. 06.18 137 0
745 Vast Data, 250억 달러 기업가치 목표로 신규 투자 유치 나선다 GPTMAGAZINE갤로그로 이동합니다. 06.18 126 0
744 일론 머스크의 xAI, 43억 달러 투자 유치 추진…AI 제국 확대 본격화 GPTMAGAZINE갤로그로 이동합니다. 06.18 380 0
743 Applied Intuition, 6억 달러 투자 유치…자율주행에서 국방 AI까지 확장 박차 GPTMAGAZINE갤로그로 이동합니다. 06.18 108 0
742 Multiverse Computing, AI 모델 95% 압축 기술로 2.15억 달러 유치 GPTMAGAZINE갤로그로 이동합니다. 06.15 171 0
뉴스 지드래곤, 8월 방콕 콘서트 취소 디시트렌드 07.11
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2