https://www.aitimes.com/news/articleView.html?idxno=158662
소형언어모델(sLM) 출시가 이어지고 있다. 그 중에서도 sLM의 표준으로 자리잡은 700억 매개변수의 메타 ‘라마 2 70B’보다 작은 규모의 sLM들이 각광받고 있다. sLM의 주도권 경쟁도 뜨거워질 것이라는 전망이 나온다.
벤처비트는 8일(현지시간) 스태빌리티 AI가 120억 매개변수의 경량 sLM ‘스테이블 LM 2 12B(Stable LM 2 12B)’를 출시했다고 보도했다.
이에 따르면 스테이블 LM 2 12B는 지난해 4월 처음 공개한 30억(3B) 및 70(7B) 매개변수의 ‘스테이블 LM’과 지난 1월 출시한 16억 매개변수의 ‘스테이블 LM 2 1.6B)’에 이은 세번째 버전이다.
스테이블 LM 2 12B에는 '기본 버전'과 영어, 스페인어, 독일어, 이탈리아어, 프랑스어, 포르투갈어, 네덜란드어 등 7개 언어에 대한 대화 기술을 향상시키도록 설계된 '지침 조정 버전(instruct version)'이 포함된다. 현재 유료 스태빌리티 AI 멤버십을 통해 상업적으로 사용 가능하다.
카를로스 리켈메 스태빌리티 AI 언어 팀 책임자는 “지침 조정 버전은 사용자와 대화식으로 상호 작용하도록 특별히 설계되고 훈련됐다”라며 "더 안전하게 만들기 위해 상당한 노력을 기울였다"라고 밝혔다.
스태빌리티 AI는 스테이블 LM 2 12B가 성능, 정확성 및 접근성 사이에서 최적의 균형을 유지한다고 주장했다. 120억 매개변수만을 사용함에도 불구하고, 다양한 벤치마크에서 더 큰 매개변수의 sLM을 능가한다는 설명이다.
최근 유행 중인 '전문가 혼합(MoE)' 방식을 사용한 것으로 알려졌다.
리켈메 책임자는 "우리는 모델이 단독으로 사용되지 않고, 하나 또는 여러개의 언어 모델이 서로 상호 작용하고 더 큰 시스템의 일부로 작동하는 미래를 예상한다”라며 "따라서 12B 모델은 다양한 사용자와 조직이 자신의 요구 사항과 관련이 있다고 생각할 수 있는 다양한 기능과 API에 연결하고 호출할 수 있도록 훈련됐다"라고 말했다.
한편 스테이블 LM 2 12B 외에도 최근 경량 sLM 출시가 빠르게 늘어나는 양상이다.
지난해 11월에는 마이크로소프트(MS)가 70억 및 130억개의 매개변수를 가진 경량 sLM ‘오르카 2(Orca 2)’를 공개했다. 이 모델은 모든 벤치마크 결과에서 평균적으로 더 큰 sLM인 '라마-2 70B' 및 '위저드LM 70B'보다 우수한 추론 능력을 보였다.
또 12월에는 27억개의 매개변수로 구성된 sLM ‘파이-2(Phi-2)’를 공개했다. 당시 MS는 이 새로운 모델이 130억개 미만의 매개변수를 사용하는 언어 모델 중에서 최고 성능을 제공한다고 주장했다.
미스트랄도 지난해 12월 MoE 아키텍처 기반의 70억 매개변수의 ‘믹스트랄 8x7B(Mixtral 8x7B)’를 공개했다. 이 모델은 작지만 강력한 성능을 갖춘 '소형 GPT-4'라는 평가를 받았다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.