메타도 '트랜스포머'에 도전...컨텍스트 창 확장가능한 ‘메갈로돈’ 출시

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 부재중입니다.(hnn12) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보] 메타도 '트랜스포머'에 도전...컨텍스트 창 확장가능한 ‘메갈로돈’ 출시

ㅇㅇ(182.230) 2024.04.19 19:41:54

조회 105 추천 1 댓글 3

https://www.aitimes.com/news/articleView.html?idxno=158958

메타도 '트랜스포머'에 도전...컨텍스트 창 확장가능한 ‘메갈로돈’ 출시

메타가 입력 데이터가 커질수록 추론이 느려지고 메모리 공간이 많이 필요한 '트랜스포머' 아키텍처의 약점을 보완한 새로운 대형언어모델(LLM)을 공개했다.벤처비트는 18일(현지시간) 메타와 미국 남가주 대학(USC) 연구진이 막대한 양의 메모리를 요구하지 않고도 컨텍스트 창을 수백만개의 토큰으로 확장 가능한 LLM ‘메갈로돈(Megalodon)’에 관한 논문을 온라인 아카이브에 게재했다고 전했다.'챗GPT'나 '제미나이' 등 LLM에 사용되는 트랜스포머 아키텍처는 컨텍스트 창이 커짐에 따라 필요한 메모리와 계산 시간이 기하급수적으로

www.aitimes.com

7ce8887fb08a07f739ee87e442ee776dba36fe70eaabfa853376ec77e5cd8be12097

메타가 입력 데이터가 커질수록 추론이 느려지고 메모리 공간이 많이 필요한 '트랜스포머' 아키텍처의 약점을 보완한 새로운 대형언어모델(LLM)을 공개했다.

벤처비트는 18일(현지시간) 메타와 미국 남가주 대학(USC) 연구진이 막대한 양의 메모리를 요구하지 않고도 컨텍스트 창을 수백만개의 토큰으로 확장 가능한 LLM ‘메갈로돈(Megalodon)’에 관한 논문을 온라인 아카이브에 게재했다고 전했다.

'챗GPT'나 '제미나이' 등 LLM에 사용되는 트랜스포머 아키텍처는 컨텍스트 창이 커짐에 따라 필요한 메모리와 계산 시간이 기하급수적으로 증가하는 단점이 있다. 예를 들어, 입력 크기를 토큰 1000개에서 2000개로 확장하면 입력을 처리하는 데 필요한 메모리와 계산 시간이 두배가 아닌 네배로 늘어나게 된다. 이는 텍스트 내 토큰들의 상관관계를 밝혀내기 위해 입력 정보를 병렬로 처리하는 '어텐션 메커니즘' 때문이다.

메갈로돈은 2022년에 처음 발표된 '메가(MEGA)' 기술을 기반으로 구축됐다. 메가는 모델의 복잡성을 크게 줄이는 방식으로, 어텐션 메커니즘을 수정하여 LLM이 메모리 및 계산 요구 사항을 폭발시키지 않고도 더 긴 입력을 처리할 수 있게 한다.

메갈로돈은 입력 시퀀스를 고정 크기 블록으로 나누어 모델 복잡도를 선형으로 줄이는 '청크별 어텐션(chunck-wise attention)'으로 메가를 개선했다. 청크별 어텐션을 사용하면 모델 학습 속도도 크게 향상된다.

7ce8887fb08a07f739ee87e443ee776d04e198c9a344d8bb006b981c831d527907

연구진에 따르면 2조 토큰의 데이터셋으로 훈련한 70억 매개변수의 메갈로돈-7B 모델은 '라마-2-7B' 및 '13B' 등과의 벤치마크에서 앞선 성능을 기록했다. 훈련 복잡성과 다운스트림 벤치마크에서 라마 2-7B보다 훨씬 뛰어난 성능을 기록했으며 일부 작업에서는 라마-2-13B와 동등한 성능을 보였다.

또 4000 토큰 컨텍스트 창에서 메갈로돈은 라마-2보다 약간 느리지만 3만2000 토큰으로 컨텍스트 길이를 확장하면 메갈로돈이 계산 효율성 때문에 라마-2를 크게 앞서는 것으로 나타났다. 긴 컨텍스트 모델링에 대한 실험 결과 메갈로돈이 무제한 길이의 시퀀스를 모델링할 수 있음을 시사한다고 주장했다.

현재 메갈로돈은 깃허브에서 제한 없이 상업적 목적으로 무료 사용 가능하다.

한편 4월에만 트랜스포머 아키텍처의 약점을 보완하기 위한 새로운 기술이 잇달아 공개되고 있다.

이스라엘 스타트업 AI21 랩스는 SSM을 기반으로 하는 ‘맘바(Mamba)’와 트랜스포머 아키텍처의 최고의 특성을 결합한 LLM ‘잠바(Jamba)’를 출시했다. 구글은 이번 주 LLM 컨텍스트 창 길이를 무한확장할 수 있는 ‘인피니-어텐션(Infini-attention)’ 기술을 공개했다.

이 외에도 스타트업 심볼리카는 트랜스포머 아키텍처에 기반한 LLM을 실행하는데 많은 비용이 드는 문제를 해결하기 위해 기호(Symbols)를 조작해 작업을 정의하는 ‘심볼릭 AI(Symbolic AI)’ 기법을 도입했다.

고정닉 1

원본 첨부파일 2본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2860	설문	경제관념 부족해서 돈 막 쓸 것 같은 스타는?	운영자	24/05/13	-	-
468705	일반	사만다 어딨냐고!!!!	이세이미야케	02:02	6	0
468704	정보	gpt-4o는 goodgpt-2 sota	특술람	02:02	83	0
468703	일반	뭔 무료 타령이야 ㅠㅠ also 를 내놔	ㅇㅇ(125.137)	02:02	17	0
468702	일반	병신들아 너네 다 낚인거야	ㅇㅇ(58.29)	02:02	20	0
468701	일반	그래서 이제뭐함?	ㅇㅇ(1.243)	02:02	7	0
468700	일반	무료 꺼져ㅗ	ㅇㅇ(211.46)	02:02	8	0
468699	일반	무라티 입갤 ㅋㅋㅋ GPT4o 입갤 ㅋㅋㅋ	ㅇㅇ	02:02	27	0
468698	일반	그래서 gpt4 어디서씀??????????	ㅇㅇ(221.161)	02:02	15	0
468697	일반	진짜 개좆같네	ㅇㅇ(211.230)	02:02	15	0
468696	일반	걍 자러간다 수고해라	ㅇㅇ(49.143)	02:02	9	0
468695	일반	아...	ㅇㅇ(14.39)	02:02	10	0
468694	일반	좆됐다 시발	ㅇㅇ(58.226)	02:02	25	0
468693	일반	구독해지드가자~~~	ㅇㅇ	02:02	38	0
468692	일반	아 존나 쌔한데..	ㅇㅇ(119.64)	02:02	11	0
468690	일반	알트만 애미 암 걸렸으면 좋겠다	위스덤	02:02	26	0
468691	일반	씹ㅋㅋ	ㅇㅇ(14.36)	02:02	18	0
468689	일반	야이 씨발련들아 대단한거라면서 씨발련아ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ	ㅇㅇ(220.123)	02:02	39	0
468688	일반	GPT-4 업글 버전 라이브 데모 보여주고 몇주내 공개 예정	챗GPT	02:02	48	0
468687	일반	agi 어딨어 시발	ㅇㅇ	02:02	17	0
468686	일반	free access ??? 이 씨발새끼들아	ㅇㅇ(121.162)	02:02	55	0
468685	일반	ㅅㄱ	agi2024	02:02	7	0
468684	일반	끝났따 쳐자라ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ	ㅂㄷ(119.70)	02:02	67	0
468683	일반	좆됐다.....	ㅇㅇ(110.46)	02:02	13	0
468682	일반	아	ㅇㅇ	02:02	15	0
468681	일반	그 스포짤이 사실이었군	ㅇㅇ(121.124)	02:02	90	0
468680	일반	싹다 노동시켜!!! 싹다 노동시켜!!! 싹다 노동시켜!!! 싹다 노동시켜	솔.이☆	02:02	28	0
468679	일반	목차 나오자마자 끄고 잘 준비했으면 개추 ㅋㅋㅋㅋ	ㅇㅇ(39.125)	02:02	28	0
468678	일반	임포턴트밖에 안들리노 ㅅㅂㅋㅋㅋㅋ	비닌	02:02	23	0
468677	일반	갑자기 존나 못생겼으면 개추.....	ㅇㅇ	02:02	23	0
468676	일반	gpt-4 무료화가 다는 아니겠지??	나일론마스크	02:02	45	0
468675	일반	스크린에 띄어놓은 gpt4o 보고 팍식노	ㅇㅇ	02:02	32	0
468674	일반	4.5 없나..	ㅇㅇ(119.64)	02:02	17	0
468673	일반	GPT-4.O 출시한다는데?	ㅇㅇ(222.101)	02:01	69	0
468672	일반	데탑 버전이랑 4o맞네	ㅇㅇ(121.191)	02:01	56	0
468671	일반	지피티뽈오 입갤ㅋㅋ	ㅇㅇ(221.152)	02:01	21	0
468670	일반	아 시발 맞냐?	ㅇㅇ(125.183)	02:01	19	0
468669	일반	데스크탑 앱 발명 ㅅㅅㅅㅅㅅㅅㅅㅅㅅ	ㅇㅇ(14.7)	02:01	45	0
468668	일반	데스크탑 앱인거보니까 프론트엔드같은게 나오나보네	ㅁㄴㅇ(222.112)	02:01	46	0
468667	일반	자러 가라 시발	ㅇㅇ(58.29)	02:01	24	0
468666	일반	진짜 40이네	ㅇㅇ(220.65)	02:01	48	0
468665	일반	시발	ㅇㅇ(222.114)	02:01	15	0
468664	일반	챗GPT 데탑 버전 공개할 예전	챗GPT	02:01	47	0
468663	일반	gpt폴오 ㅋㅋㅋ	ㅇㅇ(121.124)	02:01	30	0
468662	일반	프리액세스??	ㅇㅇ(112.186)	02:01	14	0
468661	일반	근데 저 빡대가리라 영어 모름 [2]	ㅇㅇ(58.29)	02:01	50	0
468660	일반	free access 구독 안한 특붕이들 승리의 개추좀 ㅋㅋㅋㅋ	ㅇㅇ	02:01	36	0
468659	일반	시발 유출이 맞았어 ㅋㅋㅋㅋ	ㅇㅇ(121.128)	02:01	85	0
468658	일반	이러면 아까 스포가 맞나	ㅇㅇ(115.139)	02:01	38	0
468657	일반	ㅈ된거같으면 개추ㅋㅋㅋㅋㅋㅋㅋㅋ	ㅇㅇ(180.224)	02:01	45	1
468656	일반	시발 ㅋㅋㅋ 슈카 실시간보다 시청자 적은데? ㅋㅋㅋㅋㅋㅋㅋㅋㅋ	ㅇㅇ(218.232)	02:01	47	0