디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 메타도 '트랜스포머'에 도전...컨텍스트 창 확장가능한 ‘메갈로돈’ 출시

ㅇㅇ(182.230) 2024.04.19 19:41:54
조회 113 추천 1 댓글 3
														

https://www.aitimes.com/news/articleView.html?idxno=158958

 



7ce8887fb08a07f739ee87e442ee776dba36fe70eaabfa853376ec77e5cd8be12097



메타가 입력 데이터가 커질수록 추론이 느려지고 메모리 공간이 많이 필요한 '트랜스포머' 아키텍처의 약점을 보완한 새로운 대형언어모델(LLM)을 공개했다.


벤처비트는 18일(현지시간) 메타와 미국 남가주 대학(USC) 연구진이 막대한 양의 메모리를 요구하지 않고도 컨텍스트 창을 수백만개의 토큰으로 확장 가능한 LLM ‘메갈로돈(Megalodon)’에 관한 논문을 온라인 아카이브에 게재했다고 전했다.


'챗GPT'나 '제미나이' 등 LLM에 사용되는 트랜스포머 아키텍처는 컨텍스트 창이 커짐에 따라 필요한 메모리와 계산 시간이 기하급수적으로 증가하는 단점이 있다. 예를 들어, 입력 크기를 토큰 1000개에서 2000개로 확장하면 입력을 처리하는 데 필요한 메모리와 계산 시간이 두배가 아닌 네배로 늘어나게 된다. 이는 텍스트 내 토큰들의 상관관계를 밝혀내기 위해 입력 정보를 병렬로 처리하는 '어텐션 메커니즘' 때문이다.


메갈로돈은 2022년에 처음 발표된 '메가(MEGA)' 기술을 기반으로 구축됐다. 메가는 모델의 복잡성을 크게 줄이는 방식으로, 어텐션 메커니즘을 수정하여 LLM이 메모리 및 계산 요구 사항을 폭발시키지 않고도 더 긴 입력을 처리할 수 있게 한다.


메갈로돈은 입력 시퀀스를 고정 크기 블록으로 나누어 모델 복잡도를 선형으로 줄이는 '청크별 어텐션(chunck-wise attention)'으로 메가를 개선했다. 청크별 어텐션을 사용하면 모델 학습 속도도 크게 향상된다.



7ce8887fb08a07f739ee87e443ee776d04e198c9a344d8bb006b981c831d527907



연구진에 따르면 2조 토큰의 데이터셋으로 훈련한 70억 매개변수의 메갈로돈-7B 모델은 '라마-2-7B' 및 '13B' 등과의 벤치마크에서 앞선 성능을 기록했다. 훈련 복잡성과 다운스트림 벤치마크에서 라마 2-7B보다 훨씬 뛰어난 성능을 기록했으며 일부 작업에서는 라마-2-13B와 동등한 성능을 보였다.


또 4000 토큰 컨텍스트 창에서 메갈로돈은 라마-2보다 약간 느리지만 3만2000 토큰으로 컨텍스트 길이를 확장하면 메갈로돈이 계산 효율성 때문에 라마-2를 크게 앞서는 것으로 나타났다. 긴 컨텍스트 모델링에 대한 실험 결과 메갈로돈이 무제한 길이의 시퀀스를 모델링할 수 있음을 시사한다고 주장했다.


현재 메갈로돈은 깃허브에서 제한 없이 상업적 목적으로 무료 사용 가능하다.


한편 4월에만 트랜스포머 아키텍처의 약점을 보완하기 위한 새로운 기술이 잇달아 공개되고 있다. 


이스라엘 스타트업 AI21 랩스는 SSM을 기반으로 하는 ‘맘바(Mamba)’와 트랜스포머 아키텍처의 최고의 특성을 결합한 LLM ‘잠바(Jamba)’를 출시했다. 구글은 이번 주 LLM 컨텍스트 창 길이를 무한확장할 수 있는 ‘인피니-어텐션(Infini-attention)’ 기술을 공개했다.


이 외에도 스타트업 심볼리카는 트랜스포머 아키텍처에 기반한 LLM을 실행하는데 많은 비용이 드는 문제를 해결하기 위해 기호(Symbols)를 조작해 작업을 정의하는 ‘심볼릭 AI(Symbolic AI)’ 기법을 도입했다.


자동등록방지

추천 비추천

1

고정닉 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
474298 일반 과연 짱깨가 기어오르려고 해도 느긋하게 개발할까? [3] ㅇㅇ(49.175) 05.15 113 0
474297 일반 Agi나오면 asi까진 몇년안에 된다는거네 ㅇㅇ(121.131) 05.15 79 0
474296 일반 제파센세!!! [1] ㅇㅇ갤로그로 이동합니다. 05.15 76 0
474295 일반 애초에 문명을 진보시키는 사람들은 사람들이 놀게 되는 걸 바라지 않음 ㅇㅇ(114.70) 05.15 60 0
474294 일반 안전, 초정렬, 일리야 내치고도 점진적 발전 ㅇㅈㄹ ㅋㅋ [5] ㅇㅇ(115.22) 05.15 3472 37
474292 일반 지금 구글 제일 좋은 버전은 프로가 아니라 울트라 아님? [1] ㅇㅇ(121.144) 05.15 75 0
474291 일반 구글 이새끼들 뭐 하고싶은건 많은데 잘하는게 없네 ㅋㅋ [1] ㅇㅇ(61.82) 05.15 73 0
474288 일반 특붕이들 막타는 얀르쿤이 아니라 알트만이 쳤네 어브리갤로그로 이동합니다. 05.15 78 0
474287 일반 게임 오바 ㅇㅇ(115.20) 05.15 49 0
474286 일반 걍 그정도였구나 ㅇㅇ(119.193) 05.15 74 0
474285 일반 점진적 배포 << 큰 업데이트할만큼의 여유나 여력이 안된다 [3] ㅇㅇ(59.17) 05.15 124 0
474284 일반 Oai한테 애플이 돈 존나많이 줬을듯 ㅇㅇ(121.131) 05.15 76 0
474283 일반 하루아침에 모든게 달라져야된다고 똥게이새끼야!!! ㅇㅇ(121.140) 05.15 64 0
474282 일반 초지능 정렬팀 팀장 얀 레이케도 오픈ai 나가는데? [3] ㅇㅇ갤로그로 이동합니다. 05.15 217 0
474281 일반 임계점과 오픈소스 규제를 언급하는거 보면 ㅇㅇ(218.232) 05.15 55 0
474280 일반 알트만 이 씨발련은 다중인격임? ㅇㅇ갤로그로 이동합니다. 05.15 121 1
474279 일반 알트만 이 발언 진짜 이렇게 말함? [7] ㅇㅇ(218.147) 05.15 367 0
474278 일반 근데 4는 무료로 폰다고 안 했나? [3] ㅇㅇ갤로그로 이동합니다. 05.15 178 0
474277 일반 앱등이 형님들이 유입되면 OAI도 떼돈벌지 [1] 도서관킬러갤로그로 이동합니다. 05.15 59 0
474276 일반 몇십년 후 그래프를 보면 '어? 뭔가 바꼈나봐' [2] ㅇㅇ(121.140) 05.15 149 1
474275 일반 오늘부터 건강관리와 소득 늘리는거 두개에 올인한다. [3] ㅇㅇ(122.34) 05.15 108 0
474274 일반 이번 인터뷰 보니깐 바로 알겠네 [2] ㅇㅇ(119.193) 05.15 237 2
474273 일반 알트만 인터뷰에서 가장 중요한거 [10] ㅇㅇ(117.20) 05.15 330 1
474272 일반 nft 메타버스 ai 레츠고! ㅇㅇ(119.193) 05.15 33 0
474271 일반 역시 애플이야 돈냄새는 [2] ㅇㅇ갤로그로 이동합니다. 05.15 150 0
474269 일반 몇십년후 그래프를 보면 뭔가 바뀌어있을거다?? [2] 거더라갤로그로 이동합니다. 05.15 122 0
474268 일반 gpt 4o 어캐 적용함 질문봇갤로그로 이동합니다. 05.15 58 0
474267 일반 알트만 인터뷰 보니까 모델은 자주 여러개 발표할거같네 [5] ㅇㅇ(121.131) 05.15 233 0
474266 일반 ChatGPT에 VPN 쓸 수 있음? Ad_Astra갤로그로 이동합니다. 05.15 43 0
474265 일반 씨발 일리야 왜떠남? [4] ㅇㅇ(106.101) 05.15 262 0
474264 일반 tpu가 진짜 성능 좋긴 한거 맞아? [4] ㅇㅇ갤로그로 이동합니다. 05.15 113 0
474263 일반 갤럭시 gos 터지고 좆같아서 싹 애플로 넘어갔는데 ㅇㅇ(121.154) 05.15 160 0
474262 일반 로컬형님들이 맥을 추론용으로 많이 사용하는 이유 디붕이(121.190) 05.15 116 0
474261 일반 구글 라이브의 의의 [1] Samus갤로그로 이동합니다. 05.15 170 1
474260 일반 지갤떡뭐 [2] ㅇㅇ(211.235) 05.15 54 0
474259 일반 구글 발표회는 액침냉각 TPU 6세대 출시말고는 뭐 없는건가 ㅇㅇ­갤로그로 이동합니다. 05.15 61 0
474258 일반 특이점 오면 쉽게 핑크빛 [1] ㅇㅇ갤로그로 이동합니다. 05.15 89 0
474256 일반 다른 사람 목소리 학습시키는 ai는 보통 뭐씀? [2] 직캠러(220.120) 05.15 78 1
474255 일반 새로운 CSO 폴란드 사람 같네 ㅇㅇ(1.235) 05.15 39 0
474254 일반 사만다 해금되면 연예 코치도 해주는 거냐? [1] 내복맨갤로그로 이동합니다. 05.15 46 0
474252 일반 애플이 똑똑한게 아니라 이제 걍 하청기업 되는거 아니냐? [2] ㅇㅇ(122.43) 05.15 123 0
474251 일반 Sam Altman 오늘자 인터뷰 요약 [42] ㅇㅇ(58.123) 05.15 5484 59
474250 일반 데이터 ai쪽으로 대학원온게 정말 다행이다 [3] ㅇㅇ(122.43) 05.15 202 0
474249 일반 일리야 oai 나갔구나 [2] ㅇㅇ­갤로그로 이동합니다. 05.15 143 0
474248 일반 메모리 기능 맛있네 ㄹㅇ [11] 도서관킬러갤로그로 이동합니다. 05.15 367 0
474246 일반 미용학원 상담받았더니 Ai대체된다고 헤어나 하란소리들음 [4] ㅇㅇ(14.50) 05.15 130 0
474245 일반 Gpt. 메모리는못쓰게하냐 [2] 연맛갤로그로 이동합니다. 05.15 116 0
474244 일반 4o 무료 출시하면 3.5는 사라질려나? [1] 소노자키갤로그로 이동합니다. 05.15 164 0
474242 일반 OA 개같이 패줘 [1] Singnice갤로그로 이동합니다. 05.15 150 0
474241 일반 그래서 지금 특이점 정배 몇년? [8] ㅇㅇ(103.138) 05.15 183 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2