디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 최초의 프로덕션 규모 Mamba, Jamba 공개

ㅇㅇ(123.100) 2024.03.28 23:30:31
조회 1490 추천 34 댓글 12
														
  • a17d2cad2f1b782a99595a48fa9f3433f728bd6f6b8abd3f665cabf8d0
  • MoE + Mamba + Transformer 구현
  • 12B 활성 매개변수 및 총 52B 매개변수 (MoE)
  • 256K 컨텍스트 길이 지원
  • 단일 80GB GPU에 최대 140K 컨텍스트 토큰 수용 가능
  • 생성속도 트랜스포머 대비 3배 빠름
  • 일부는 Mamba 확장을 실험했지만 누구도 3B 매개변수 이상으로 확장하지 않았습니다. Jamba는 프로덕션급 규모에 도달한 최초의 하이브리드 아키텍처입니다.


MMLU 67.4%

HellaSwag 87.1% 등

(*LLaMa2 70B MMLU 69.8%)

7beb8073b2856ba23fe8d4e544d3276596908d2d733385241c1d52ade90209fae88b1dcc458f164b3d210a4d4a96fc002f2e7e3e8f3b45e9


Instruction finetuning이나 채팅폼에 맞게 미세조정, 정렬되지 않은 기본 모델인 점을 감안하면

꽤나 괜찮은 성적으로 보임


Mamba가 스케일 더 높였을 때도 잘 작동하나보네

메모리효율성 덕분에 컨텍스트 토큰도 엄청나게 많이 쓸 수 있는 것 같고


유망하다.



Jamba는 최첨단 하이브리드 SSM-Transformer LLM입니다. 이는 기존 Transformer 기반 모델에 비해 처리량 향상을 제공하는 동시에 가장 일반적인 벤치마크에서 해당 크기 등급의 주요 모델보다 성능이 뛰어나거나 일치합니다.


Jamba는 최초의 프로덕션 규모 Mamba 구현으로, 흥미로운 연구 및 적용 기회를 열어줍니다. 이 초기 실험에서는 고무적인 이점을 보여주지만 향후 최적화 및 탐색을 통해 이러한 이점이 더욱 향상될 것으로 기대합니다.


7fee9e36ebd518986abce8954180746dd7


자동등록방지

추천 비추천

34

고정닉 14

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
453943 정보/ 20년 췌장암만 판 美 교수도 놀랐다 “전례 없는 치료 효과” [22] ㅇㅇ(211.59) 04.09 3526 30
453934 정보/ 핀란드 사일로, 북유럽 언어 위한 오픈 소스 LLM '바이킹' 출시 [2] ㅇㅇ(182.230) 04.08 199 10
453933 정보/ 엔비디아, 포춘 '일하기 좋은 기업' 3위 기록 [4] ㅇㅇ(182.230) 04.08 1346 14
453932 정보/ 오픈AI·메타·구글 "협상 대신 소송"...인터넷 데이터 마구잡이로 퍼가 [8] ㅇㅇ(182.230) 04.08 1641 18
453919 정보/ 데미스 허사비스는 팀의 사기를 회복하려고 노력함 [19] ㅇㅇ(123.100) 04.08 1955 18
453820 일반 특이점이 온다 인스타계정 만들었다 [40] 잇잇잇훈갤로그로 이동합니다. 04.08 2764 23
453779 정보/ 과학자 없는 AI 실험실 … 나노소재 직접 개발 [35] 니지카엘갤로그로 이동합니다. 04.08 3426 30
453776 정보/ oai 소라팀 연구원"소라는 비디오의 gpt1" [20] ㅇㅇ(211.59) 04.08 3002 26
453773 일반 Ai 발전정체가 계속될 가능성이 높은이유 (삭제업) [48] ㅇㅇ(118.129) 04.08 3886 45
453735 정보/ GPT한계 지적하던 트위터인 1만달러 현상금 결과.. [21] ㅇㅇ(123.100) 04.08 3234 31
453679 정보/ 컴퓨터비전의 GPT 모먼트가 왔다 (VAR) [39] ㅇㅇ(123.100) 04.08 3156 32
453678 정보/ 생각의 시각화는 대규모 언어 모델에서 공간 추론을 이끌어냅니다. [10] ㅇㅇ(125.191) 04.08 356 10
453653 일반 형님들 suno ai랑 ai휴먼 합성해봤습니다 [21] 레커(125.176) 04.07 3207 19
453643 정보/ MoD: 트랜스포머 기반 언어 모델 최적화를 위한 접근법 [8] ㅇㅇ(182.230) 04.07 1226 20
453629 정보/ AI 학습 데이터 시장 급속 확대..."단어에 1000개 당 1달러" [5] ㅇㅇ(182.230) 04.07 2113 17
453625 정보/ MS·퀀티넘 "큐비트 안정화 성공..."양자 컴퓨팅 상용화 진입" [17] ㅇㅇ(182.230) 04.07 2250 31
453403 정보/ 인류의 독특한 지능 수준을 설명하는 데 규모가 필요한 전부 [42] 특술람갤로그로 이동합니다. 04.06 3865 21
453528 일반 알트만 피셜 과도기 기간 2주라네 [41] ㅇㅇ갤로그로 이동합니다. 04.07 4394 41
453492 일반 역노화 실험 내년부터 시작한다는듯 [27] ㅇㅇ(112.168) 04.07 4496 39
453485 일반 전 테슬라 연구원"fsd 차기 버전은 인간과 소통할 수 있는 agi 버전 [14] ㅇㅇ(211.59) 04.07 1778 16
453484 일반 oai 연구원"영상 생성은 모든 것을 시뮬레이션 하여 agi로 이어질것" [28] ㅇㅇ(211.59) 04.07 3305 32
453475 정보/ "화산지대 암석 균열 속 열 흐름이 생명 기원 물질 생성 촉진" [3] ㅇㅇ(182.230) 04.07 1622 20
453458 일반 샘알트먼 & 사티나 나텔라 인터뷰 영상 [6] ㅇㅇ(211.107) 04.07 2159 29
453448 일반 싹다구속시켜.씨발.feel the agi.씹새끼들.꽉잡아라.노동시켜.노동 [34] 약중독고앵이갤로그로 이동합니다. 04.07 4277 93
453434 역노화 알츠하이머 치료제, 집에서 맞으며 관리하는 시대 열린다 [12] ㅇㅇ갤로그로 이동합니다. 04.07 1466 16
453431 일반 게임오바네 [13] ㅇㅇ갤로그로 이동합니다. 04.07 3810 60
453409 정보/ 알트먼, '챗GPT 전용 기기' 제조 위해 1.4조 모금 중 [15] ㅇㅇ(182.230) 04.06 2835 36
453377 일반 특이점으로 본 조1선붕당의 이해 [20] et갤로그로 이동합니다. 04.06 2375 63
453184 정보/ "빅뱅 10억년 후, 우주의 시간은 '5배' 느렸다" [13] ㅇㅇ(182.230) 04.06 3082 25
453180 정보/ 람다, 'H100' GPU 담보로 6500억 대출 받아 [12] ㅇㅇ(182.230) 04.06 1888 23
453110 일반 아니 시발 이왜진? 작곡가들 쵸--비상!!!!!! [36] ㅇㅇ(222.118) 04.05 5562 44
452887 정보/ 염색체 말단 '텔로미어' 메커니즘 규명…"항암 치료 전략에 도움" [24] ㅇㅇ(182.230) 04.05 3522 23
452990 일반 인간 중위 데이터과학자를 능가하는 ai [17] 특술람갤로그로 이동합니다. 04.05 3525 28
452935 일반 "어이 샘! 오늘 트위터 근들갑 차례는 너라고!" [27] ㅇㅇ갤로그로 이동합니다. 04.05 3660 40
452927 일반 AI 일상화에 7100억원 투입···AI 혁명으로 한국 구조적 위기 극복 [33] Varian■Wrynn갤로그로 이동합니다. 04.05 3085 25
452894 정보/ SKT, OAI 미세조정 서비스 이용해 큰 효과 [10] ㅇㅇ(123.100) 04.05 1964 17
452889 정보/ 인간 뇌 모방한 '뉴로모픽 신경망', 컴퓨팅 난제 해결했다 [9] ㅇㅇ(182.230) 04.05 2135 22
452884 정보/ 욱한 마음 누르는 뇌 원리 찾았다…'감정 조절' 치료 가능할까 [10] ㅇㅇ(182.230) 04.05 2440 25
452876 정보/ Cohere, 강력한 오픈소스 LLM 공개(한국어 떡상) [8] ㅇㅇ(118.235) 04.05 2366 24
452868 정보/ KAIST, 소비 전력 15배 줄이는 뉴로모픽 반도체 메모리 소자 개발 [3] ㅇㅇ(182.230) 04.05 308 10
452855 일반 중력 너머 우주서…인류 구할 ‘신약 개발 상용화’ 첫발 [31] ㅇㅇ갤로그로 이동합니다. 04.05 2236 25
452754 일반 나 이상한게 보여.. [28] ㅇㅇ(1.244) 04.04 4767 31
452727 정보/ 오픈ai가 투자한 자율주행 개발 회사가 운영을 중단함 [22] ㅇㅇ(211.59) 04.04 3649 22
452596 일반 美 연구진 “챗GPT4, 임상 추론에서 의사보다 뛰어난 능력 보여” [61] ㅇㅇ(1.239) 04.04 3584 21
452509 정보/ 마소 기록상 가장 신뢰할 수 있는 논리적 큐비트를 시연 [17] ㅇㅇ갤로그로 이동합니다. 04.03 3419 23
452500 정보/ Stable Audio 2.0 발표 [20] ㅇㅇ(125.191) 04.03 3227 24
452470 정보/ 삼성전자, 오픈AI 진영 합류 결정… AI 반도체 ‘드림팀’ 꾸린다 [54] ㅇㅇ(211.59) 04.03 4559 45
452260 정보/ 로건GPT, 구글 제미니팀 입사 [5] ㅇㅇ(123.100) 04.03 2995 22
452246 정보/ Layer-Pruning & QLoRA를 활용한 모델 경량화 [3] ㅇㅇ(182.230) 04.03 1325 18
452199 정보/ 레딧 펌) 1.58비트 3진법 LLM 언어모델 오픈소스 공개 [12] ㅇㅇ갤로그로 이동합니다. 04.02 2658 19
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2