Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보/뉴스] Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5

ㅇㅇ(182.230) 2024.04.29 12:28:41

조회 736 추천 21 댓글 4

https://qwenlm.github.io/blog/qwen1.5-110b/

a15714ab041eb360be3335625683746f0053452dd6a4e289d63760f79c17cd6e58757c58203d1c0ca6189e4f59

- 오픈소스 커뮤니티에서 최근 1000억 개 이상의 매개변수를 가진 대규모 모델들이 쏟아져 나오고 있으며, 벤치마크 평가와 챗봇 분야에서 놀라운 성능을 보여주고 있음

- 알리바바도 Qwen1.5 시리즈의 첫 번째 100B+ 모델인 Qwen1.5-110B를 공개

- 기본 모델 평가에서 Meta-Llama3-70B와 견줄 만한 성능을 달성하였고, MT-Bench와 AlpacaEval 2.0을 포함한 채팅 평가에서 뛰어난 성능을 보여줌

Qwen1.5-110B 모델의 특징

- Qwen1.5-110B는 다른 Qwen1.5 모델들과 유사하며 동일한 Transformer 디코더 아키텍처로 구축됨

- 그룹화된 쿼리 어텐션(GQA)으로 구성되어 모델 서빙에 효율적임

- 32K 토큰의 컨텍스트 길이를 지원하며, 영어, 중국어, 프랑스어, 스페인어, 독일어, 러시아어, 한국어, 일본어, 베트남어, 아랍어 등 다수의 언어를 지원하는 다국어 모델

기본 언어 모델 평가 결과

- 기본 언어 모델에 대한 일련의 평가와 최근 SOTA 언어 모델인 Meta-Llama3-70B 및 Mixtral-8x22B와 비교

- 결과에 따르면 새로운 110B 모델은 기본 능력 면에서 Llama-3-70B 모델과 적어도 경쟁력이 있음

- 이 모델의 경우 사전 학습 및 사후 학습 레시피를 급격히 변경하지 않았으므로, 72B 대비 성능 향상은 모델 크기 증가에서 비롯된 것으로 보임

채팅 모델 평가 결과

- MT-Bench와 AlpacaEval 2.0에서 채팅 모델을 테스트함

- 이전에 공개된 72B 모델에 비해 110B는 두 가지 벤치마크 평가에서 현저히 우수한 성능을 보임

- 평가에서의 일관된 개선은 사후 학습 레시피를 크게 변경하지 않더라도 더 강력하고 큰 기본 언어 모델이 더 나은 채팅 모델로 이어질 수 있음을 나타냄

결론

- Qwen1.5-110B는 Qwen1.5 시리즈 중 가장 큰 모델이며, 시리즈 중 첫 번째로 1000억 개 이상의 매개변수를 가진 모델임

- 최근 공개된 SOTA 모델인 Llama-3-70B와 경쟁력 있는 성능을 보여주며, 72B 모델보다 크게 우수함

- 이는 더 나은 성능을 위해 모델 크기 확장에 여전히 많은 가능성이 있음을 나타냄

- Llama-3의 공개는 데이터를 극도로 큰 규모로 확장하는 것의 중요성을 보여주지만, 향후 공개에서 데이터와 모델 크기를 모두 확장하여 두 세계의 장점을 모두 얻을 수 있을 것이라 믿음

고정닉 6

원본 첨부파일 1

스크린샷 2024-04-29 122602.png

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2863	설문	시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는?	운영자	24/05/27	-	-
470838	일반	이미지 인식능력 돌았다 [9]	ㅇㅅㅇ(210.91)	05.14	3829	22
470819	일반	Gpt4o 이미지 인식능력 장난아니네 [7]	ㅇㅅㅇ(210.91)	05.14	4133	19
470537	정보/ 정보/뉴스	GPT-4o MMLU 88.7 [9]	ㅇㅇ(61.82)	05.14	3193	19
470528	AI창 AI창작	gpt4o로 만든거 gif로 쪄왔다 ㅋㅋㅋㅋ 싹 다 가속시켜!!! [18]	ㅇㅇ(121.162)	05.14	2302	22
470492	일반	GPT-4o는 3시간당 80개 메세지 가능 [20]	ㅇㅇ(175.208)	05.14	4495	25
470467	일반	이쯤에서 특갤 민심 테스트 간다 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [15]	lightvector	05.14	3349	70
470406	정보/ 정보/뉴스	너희들 마지막에 집중안했노 [5]	ㅇㅇ(119.77)	05.14	3032	23
470303	일반	영화 her 새짤 개웃기노 ㅋㅋㅋㅋ [15]	ㅇㅇ(222.99)	05.14	5009	41
470283	일반	GPT4 초기랑 비슷하니 뭐니하던거 웃음벨이고 ㅋㅋㅋㅋ [2]	ㅇㅇ	05.14	2125	23
470248	일반	얘한테 당장 7000조 줘야하면 개추 [9]	ㅇㅇ(121.131)	05.14	3705	67
470244	정보/ 정보/뉴스	gpt4o 추가 예시 [26]	특갤용	05.14	4572	31
469010	정보/ 정보/뉴스	[오피셜] 고화질 also 벤치마크 떴다!!!! [20]	lightvector	05.14	3514	29
470025	정보/ 정보/뉴스	오늘 밝혀진 중요한 정보 [13]	ㅇㅇ(119.77)	05.14	3559	27
470148	정보/ 정보/뉴스	속보))알트만의 gpt-4o 모델 설명!!!!!!!! [10]	lightvector	05.14	4137	31
470217	일반	알트만 : her [23]	ㅇㅇ(59.5)	05.14	2957	28
470153	일반	gpt-4o api 써봤다 속도 뭐냐..................?? [29]	ㅇㅇ(49.143)	05.14	4221	26
470139	일반	한국어 토큰 1.7배 감소 [3]	ㅇㅇ(125.250)	05.14	2836	23
469815	정보/ 정보/뉴스	오늘 새벽 OpenAI 발표 총요약본...txt [26]	lightvector	05.14	7392	60
469797	일반	시발년들아 개추 안박고 뭐하냐 [8]	ㅇㅇ(58.29)	05.14	2238	56
467482	일반	와 진짜 뭐가오길래 공홈에다 이따구로 근들갑떨어놓은거임? ㅋㅋ [29]	ㅇㅇ(124.111)	05.13	4832	40
467404	일반	오늘 자러간 꿀잠충, 출근충, 선형충이 보게 될 상황...JPG [13]	ㅇㅇ(175.125)	05.13	3485	33
467355	일반	와 시발 also 진짜 말도 안 되네 [14]	ㅇㅇ(210.106)	05.13	4046	22
467137	일반	??? : 지는 거예요...? [5]	ㅇㅇ(218.156)	05.13	2988	28
467129	일반	특갤 개씹뒤집어지는 시나리오... [20]	ㅇㅇ	05.13	4085	43
467036	일반	also랑 gpt-4 초기랑 비슷하다 이 지랄하네 ㅋㅋ [31]	ㅇㅇ(106.247)	05.13	3406	30
466881	일반	딱 봐도 이거 확정이네 [37]	ㅇㅇ(220.71)	05.13	5377	33
466436	일반	고민하는 ai는 진짜 대박인데? [59]	ㅇㅇ(117.20)	05.12	6221	31
466269	정보/ 정보/뉴스	챗지피티에 GPT4.5 업데이트 암시 [15]	ㅇㅇ(121.124)	05.12	4955	27
466105	일반	흥분하는 openai 연구원 [42]	ㅇㅇ(125.191)	05.12	5721	22
466096	일반	모레 새벽 특갤 예상 [20]	ㅇㅇ(211.197)	05.12	3972	40
466090	AI창 AI창작	gpt2로 DOOM 만들기 [58]	ㅇㅇ	05.12	7049	81
465944	일반	"내부적으로 달성된 agi는 없어ㅎㅎ" [36]	ㅇㅇ(114.202)	05.11	4554	42
465939	일반	알트만이 UBI와 AGI 분배에 대해 언급한 영상들 [16]	월코존버	05.11	3117	27
465911	일반	[긴급] 애플, 아이폰에 Chat GPT 탑재 협상 중 [2]	ㅇㅇ(218.147)	05.11	669	24
465871	일반	알트만: 내부적으로 AGI는 없어 ㅎㅎ 미안! [16]	ㅇㅇ(59.17)	05.11	4133	25
465859	일반	알트만 : 존나좋다. 기대해라 [36]	ㅇㅇ(59.5)	05.11	4759	23
465851	일반	알트만 NSFW 직접언급 사칭아님 ㅇㅇㅇ [11]	ㅇㅇ(59.5)	05.11	2278	17
465806	일반	GPT-5는 없을 수도 [31]	특술람	05.11	3839	16
465772	정보/ 정보/뉴스	OAI 연구원 : "GPT5보다 멋질 것" [25]	ㅇㅇ(118.235)	05.11	4119	17
465433	정보/ 정보/뉴스	방금 샘알트만 오피셜 "GPT-5도, 검색엔진도 아니다." [48]	초존도초	05.11	5307	33
465412	정보/ 정보/뉴스	소금•물 이용해 인간 뇌세포처럼 움직이는 바이오컴퓨터 [8]	ㅇㅇ(182.230)	05.11	2458	23
465403	정보/ 정보/뉴스	에너지 밀도가 19배 높은 새로운 커패시터 [2]	ㅇㅇ(118.39)	05.11	246	13
465374	정보/ 정보/뉴스	유전자 치료로 11세에 처음 소리 들었다…"정상 청력 회복" [25]	ㅇㅇ(182.230)	05.10	2853	32
465275	일반	"자, 다 모이셨군요!" [19]	ㅇㅇ	05.10	4284	26
465172	정보/ 정보/뉴스	나노 수준의 해상도로 재구성된 인간 대뇌 피질의 페타복셀 조각 [16]	ㅇㅇ(118.39)	05.10	1667	16
465079	일반	also-gpt2가 만들어준 2인용 핑퐁게임 [3]	천사다천사	05.10	1652	17
465051	일반	"AI가 성인 콘텐츠 만든다" 오픈AI 제작 허용 검토 (msn.com) [40]	루미코드	05.10	4400	36
465018	정보/ 정보/뉴스	알트만 : gpt4때문에 미래모델 영향 과소평가 우려 중 [33]	ㅇㅇ(119.77)	05.10	3525	21
465014	정보/ 정보/뉴스	gpt-4l-auto, gpt-4-auto 새모델 [15]	ㅇㅇ(119.77)	05.10	795	12
465005	일반	also 나와서 기분 좋은 특붕이면 개추 ㅋㅋㅋ [3]	ㅇㅇ(1.239)	05.10	2330	25