디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5

ㅇㅇ(182.230) 2024.04.29 12:28:41
조회 736 추천 21 댓글 4
														

https://qwenlm.github.io/blog/qwen1.5-110b/



a15714ab041eb360be3335625683746f0053452dd6a4e289d63760f79c17cd6e58757c58203d1c0ca6189e4f59



- 오픈소스 커뮤니티에서 최근 1000억 개 이상의 매개변수를 가진 대규모 모델들이 쏟아져 나오고 있으며, 벤치마크 평가와 챗봇 분야에서 놀라운 성능을 보여주고 있음

- 알리바바도 Qwen1.5 시리즈의 첫 번째 100B+ 모델인 Qwen1.5-110B를 공개

- 기본 모델 평가에서 Meta-Llama3-70B와 견줄 만한 성능을 달성하였고, MT-Bench와 AlpacaEval 2.0을 포함한 채팅 평가에서 뛰어난 성능을 보여줌


Qwen1.5-110B 모델의 특징

- Qwen1.5-110B는 다른 Qwen1.5 모델들과 유사하며 동일한 Transformer 디코더 아키텍처로 구축됨

- 그룹화된 쿼리 어텐션(GQA)으로 구성되어 모델 서빙에 효율적임

- 32K 토큰의 컨텍스트 길이를 지원하며, 영어, 중국어, 프랑스어, 스페인어, 독일어, 러시아어, 한국어, 일본어, 베트남어, 아랍어 등 다수의 언어를 지원하는 다국어 모델


기본 언어 모델 평가 결과

- 기본 언어 모델에 대한 일련의 평가와 최근 SOTA 언어 모델인 Meta-Llama3-70B 및 Mixtral-8x22B와 비교

- 결과에 따르면 새로운 110B 모델은 기본 능력 면에서 Llama-3-70B 모델과 적어도 경쟁력이 있음

- 이 모델의 경우 사전 학습 및 사후 학습 레시피를 급격히 변경하지 않았으므로, 72B 대비 성능 향상은 모델 크기 증가에서 비롯된 것으로 보임


채팅 모델 평가 결과

- MT-Bench와 AlpacaEval 2.0에서 채팅 모델을 테스트함

- 이전에 공개된 72B 모델에 비해 110B는 두 가지 벤치마크 평가에서 현저히 우수한 성능을 보임

- 평가에서의 일관된 개선은 사후 학습 레시피를 크게 변경하지 않더라도 더 강력하고 큰 기본 언어 모델이 더 나은 채팅 모델로 이어질 수 있음을 나타냄


결론

- Qwen1.5-110B는 Qwen1.5 시리즈 중 가장 큰 모델이며, 시리즈 중 첫 번째로 1000억 개 이상의 매개변수를 가진 모델임

- 최근 공개된 SOTA 모델인 Llama-3-70B와 경쟁력 있는 성능을 보여주며, 72B 모델보다 크게 우수함

- 이는 더 나은 성능을 위해 모델 크기 확장에 여전히 많은 가능성이 있음을 나타냄

- Llama-3의 공개는 데이터를 극도로 큰 규모로 확장하는 것의 중요성을 보여주지만, 향후 공개에서 데이터와 모델 크기를 모두 확장하여 두 세계의 장점을 모두 얻을 수 있을 것이라 믿음

자동등록방지

추천 비추천

21

고정닉 6

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
470838 일반 이미지 인식능력 돌았다 [9] ㅇㅅㅇ(210.91) 05.14 3829 22
470819 일반 Gpt4o 이미지 인식능력 장난아니네 [7] ㅇㅅㅇ(210.91) 05.14 4133 19
470537 정보/ GPT-4o MMLU 88.7 [9] ㅇㅇ(61.82) 05.14 3193 19
470528 AI창 gpt4o로 만든거 gif로 쪄왔다 ㅋㅋㅋㅋ 싹 다 가속시켜!!! [18] ㅇㅇ(121.162) 05.14 2302 22
470492 일반 GPT-4o는 3시간당 80개 메세지 가능 [20] ㅇㅇ(175.208) 05.14 4495 25
470467 일반 이쯤에서 특갤 민심 테스트 간다 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [15] lightvector갤로그로 이동합니다. 05.14 3349 70
470406 정보/ 너희들 마지막에 집중안했노 [5] ㅇㅇ(119.77) 05.14 3032 23
470303 일반 영화 her 새짤 개웃기노 ㅋㅋㅋㅋ [15] ㅇㅇ(222.99) 05.14 5009 41
470283 일반 GPT4 초기랑 비슷하니 뭐니하던거 웃음벨이고 ㅋㅋㅋㅋ [2] ㅇㅇ갤로그로 이동합니다. 05.14 2125 23
470248 일반 얘한테 당장 7000조 줘야하면 개추 [9] ㅇㅇ(121.131) 05.14 3705 67
470244 정보/ gpt4o 추가 예시 [26] 특갤용갤로그로 이동합니다. 05.14 4572 31
469010 정보/ [오피셜] 고화질 also 벤치마크 떴다!!!! [20] lightvector갤로그로 이동합니다. 05.14 3514 29
470025 정보/ 오늘 밝혀진 중요한 정보 [13] ㅇㅇ(119.77) 05.14 3559 27
470148 정보/ 속보))알트만의 gpt-4o 모델 설명!!!!!!!! [10] lightvector갤로그로 이동합니다. 05.14 4137 31
470217 일반 알트만 : her [23] ㅇㅇ(59.5) 05.14 2957 28
470153 일반 gpt-4o api 써봤다 속도 뭐냐..................?? [29] ㅇㅇ(49.143) 05.14 4221 26
470139 일반 한국어 토큰 1.7배 감소 [3] ㅇㅇ(125.250) 05.14 2836 23
469815 정보/ 오늘 새벽 OpenAI 발표 총요약본...txt [26] lightvector갤로그로 이동합니다. 05.14 7392 60
469797 일반 시발년들아 개추 안박고 뭐하냐 [8] ㅇㅇ(58.29) 05.14 2238 56
467482 일반 와 진짜 뭐가오길래 공홈에다 이따구로 근들갑떨어놓은거임? ㅋㅋ [29] ㅇㅇ(124.111) 05.13 4832 40
467404 일반 오늘 자러간 꿀잠충, 출근충, 선형충이 보게 될 상황...JPG [13] ㅇㅇ(175.125) 05.13 3485 33
467355 일반 와 시발 also 진짜 말도 안 되네 [14] ㅇㅇ(210.106) 05.13 4046 22
467137 일반 ??? : 지는 거예요...? [5] ㅇㅇ(218.156) 05.13 2988 28
467129 일반 특갤 개씹뒤집어지는 시나리오... [20] ㅇㅇ갤로그로 이동합니다. 05.13 4085 43
467036 일반 also랑 gpt-4 초기랑 비슷하다 이 지랄하네 ㅋㅋ [31] ㅇㅇ(106.247) 05.13 3406 30
466881 일반 딱 봐도 이거 확정이네 [37] ㅇㅇ(220.71) 05.13 5377 33
466436 일반 고민하는 ai는 진짜 대박인데? [59] ㅇㅇ(117.20) 05.12 6221 31
466269 정보/ 챗지피티에 GPT4.5 업데이트 암시 [15] ㅇㅇ(121.124) 05.12 4955 27
466105 일반 흥분하는 openai 연구원 [42] ㅇㅇ(125.191) 05.12 5721 22
466096 일반 모레 새벽 특갤 예상 [20] ㅇㅇ(211.197) 05.12 3972 40
466090 AI창 gpt2로 DOOM 만들기 [58] ㅇㅇ갤로그로 이동합니다. 05.12 7049 81
465944 일반 "내부적으로 달성된 agi는 없어ㅎㅎ" [36] ㅇㅇ(114.202) 05.11 4554 42
465939 일반 알트만이 UBI와 AGI 분배에 대해 언급한 영상들 [16] 월코존버갤로그로 이동합니다. 05.11 3117 27
465911 일반 [긴급] 애플, 아이폰에 Chat GPT 탑재 협상 중 [2] ㅇㅇ(218.147) 05.11 669 24
465871 일반 알트만: 내부적으로 AGI는 없어 ㅎㅎ 미안! [16] ㅇㅇ(59.17) 05.11 4133 25
465859 일반 알트만 : 존나좋다. 기대해라 [36] ㅇㅇ(59.5) 05.11 4759 23
465851 일반 알트만 NSFW 직접언급 사칭아님 ㅇㅇㅇ [11] ㅇㅇ(59.5) 05.11 2278 17
465806 일반 GPT-5는 없을 수도 [31] 특술람갤로그로 이동합니다. 05.11 3839 16
465772 정보/ OAI 연구원 : "GPT5보다 멋질 것" [25] ㅇㅇ(118.235) 05.11 4119 17
465433 정보/ 방금 샘알트만 오피셜 "GPT-5도, 검색엔진도 아니다." [48] 초존도초갤로그로 이동합니다. 05.11 5307 33
465412 정보/ 소금•물 이용해 인간 뇌세포처럼 움직이는 바이오컴퓨터 [8] ㅇㅇ(182.230) 05.11 2458 23
465403 정보/ 에너지 밀도가 19배 높은 새로운 커패시터 [2] ㅇㅇ(118.39) 05.11 246 13
465374 정보/ 유전자 치료로 11세에 처음 소리 들었다…"정상 청력 회복" [25] ㅇㅇ(182.230) 05.10 2853 32
465275 일반 "자, 다 모이셨군요!" [19] ㅇㅇ갤로그로 이동합니다. 05.10 4284 26
465172 정보/ 나노 수준의 해상도로 재구성된 인간 대뇌 피질의 페타복셀 조각 [16] ㅇㅇ(118.39) 05.10 1667 16
465079 일반 also-gpt2가 만들어준 2인용 핑퐁게임 [3] 천사다천사갤로그로 이동합니다. 05.10 1652 17
465051 일반 "AI가 성인 콘텐츠 만든다" 오픈AI 제작 허용 검토 (msn.com) [40] 루미코드갤로그로 이동합니다. 05.10 4400 36
465018 정보/ 알트만 : gpt4때문에 미래모델 영향 과소평가 우려 중 [33] ㅇㅇ(119.77) 05.10 3525 21
465014 정보/ gpt-4l-auto, gpt-4-auto 새모델 [15] ㅇㅇ(119.77) 05.10 795 12
465005 일반 also 나와서 기분 좋은 특붕이면 개추 ㅋㅋㅋ [3] ㅇㅇ(1.239) 05.10 2330 25
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2