1.58 비트넷 저자들 추가 발표 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 부재중입니다.(hnn12) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보] 1.58 비트넷 저자들 추가 발표

ㅇㅇ(123.100) 2024.03.21 01:03:03

조회 3284 추천 71 댓글 41

7cf3c028e2f206a26d81f6e140817568

https://github.com/microsoft/unilm/tree/master/bitnet

마이크로소프트 언어모델 관련 깃허브에 오늘 추가 자료 올라옴

The Era of 1-bit LLMs: Training Tips, Code and FAQ

그리 길지는 않아서 전체적으로 보고 왔음

7ff3c028e2f206a26d81f6e44786716c5a

저자들도 회의적인 반응들이 꽤 있어서 그랬는지,

논문에 'Believing is seeing.' 이라고 박아 놓음

(직접 보면 안 믿을 수 없을 것이다.)

어떻게 학습했는지와 학습 과정에 대한 보다 구체적인 자료, 하이퍼파라미터 등 공개하고

어떻게 파이토치로 구현하는지도 공개함

37beca25abc236a14e81d2b628f1756b624f4f

이번 보고서에서 공개한 그래프

저자들은 1.58 BitNet이 S자형 손실 곡선을 보여준다고 말함

7fee8275abc236a14e81d2b628f17269761562

그리고 이 그래프가 이 보고서의 핵심이라고 볼 수도 있는데,

모델 크기가 커지면 커질 수록 전체 정밀도 모델과 학습 손실 차이가 줄어드는 경향을 보여줌

아래는 저자들이 써놓은 FAQ

1. 삼항 {-1, 0, 1} 말고 딴건 왜 안씀?

{-1, 1} : 원래 BitNet b1(저자들의 이전 논문)에서 구현이었는데 성능이 삼항보다 딸렸음

{0, 1} : 최적화가 매우 불안정함

{-2, -1, 0, 1} or {-2, -1, 0, 1, 2}같이 추가적인 비트 사용 : 삼항 {-1, 0, 1}하고 별 차이 없어서 안씀

2. 훈련도 빨라짐?

현재 구현은 여전히 FP16/BF16에 있어서 실험에서 실제 속도 향상은 없음

하지만 대형 모델의 경우 가속화할 수 있는 상당한 기회가 있음

3. BitNet이 더 큰 모델에도 작동함?

"The Era of 1-bit LLMs" 논문에서 공개한 것처럼 완전 정밀도 LLM과 BitNet 1.58 사이의 간격이 모델 크기가 커짐에 따라 작아지는 것을 보여주는 명확한 추세가 있음

이는 BitNet이 더 큰 모델에 더욱 효과적이라는 것을 의미함

오히려 BitNet은 더 큰 모델 크기에서 더 나은 성능을 발휘함

1.58 비트 모델은 더 나은 일반화 기능을 제공하고 과적합이 덜 발생할 수 있음

그리고 아래에 파이토치 기반 구현 코드도 공개했는데, 되게 간단해서 금방 사람들이 실험해볼 듯

이번에도 여전히 저자들의 주장이기는 하나

저자들은 믿음이 굉장히 굳건해보인다.

끗

고정닉 23

원본 첨부파일 4본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2858	설문	SNS로 싸우면 절대 안 질 것 같은 고집 있는 스타는?	운영자	24/05/06	-	-
449553	일반	아무리 생각해도 오픈ai 스캠 느낌이 살짝씩 난다 [63]	ㅇㅇ(125.184)	03.28	3973	81
449520	역노화	'회춘약' 개발 초읽기…"생쥐실험 성공" [21]	ㅇㅇ(106.102)	03.28	3065	32
449486	정보	ai로 암진단... 정확도 90% [10]	ㅂㄷ(118.235)	03.28	496	10
449472	정보	아마존 앤트로픽에 27억 5천만 달러 추가 투자 [14]	ㅇㅇ(211.59)	03.28	1641	25
449462	정보	AI는 맥주 맛을 더 좋게 만드는 방법을 알려줄 수 있습니다 [25]	ㅇㅇ	03.28	908	21
448995	정보	AI로 자간전증에 대한 망막 바이오마커 식별 [15]	ㅇㅇ	03.27	2003	25
449080	정보	Claude 3 Opus, LMSYS 리더보드 GPT-4 제치고 1위 [16]	니지카엘	03.27	2792	25
449385	정보	"오픈AI 연봉이 130억"…저커버그, AI 인재 유출에 직접 나섰다 [16]	ㅇㅇ(58.140)	03.27	2700	25
449377	정보	실리콘 밸리서 알트먼 비난 증가..."AI의 알렉산더 대왕 되려고 해" [19]	ㅇㅇ(58.140)	03.27	2512	29
449371	일반	현재 메타 AI 연구원 대탈출 중 [37]	ㅇㅇ(123.100)	03.27	3942	42
449303	정보	AI '종말'로 인해 영국에서 약 800만 개의 일자리가 사라질 수 있다 [13]	부패하는유전자!!!	03.27	2294	27
449347	일반	Ai 덕분에 10개국어 가능해진 백만 유튜버 근황 [9]	ㅇㅇ(116.120)	03.27	3286	23
449305	역노화	연구원들은 도입된 완보동물 단백질이 인간 세포의 신진대사를 늦출 수 있음 [14]	부패하는유전자!!!	03.27	2372	31
449315	정보	채신논문) 어째서 새들은 그렇게 똑똑한가? [20]	ㅇㅇ	03.27	3020	57
448975	정보	설문결과, 거의 절반이 AI로 직원 대체 목표 중 [14]	ㅇㅇ(123.100)	03.26	2858	27
449166	정보	안드레이 카파시 "언어모델 운영체제를 통해 AGI로 가는 길" [13]	ㅇㅇ(111.171)	03.27	2230	31
448985	일반	알트먼 느낌 존나 싸하긴하네 ㅋㅋㅋㅋ [7]	상한포도	03.26	1246	13
448858	일반	속보) 시작된 AI 레이스...... iOS 18 애플의 "혁신" [60]	물병나르는청년	03.26	5226	48
448855	일반	삼성증권 AGI 언급 ㄷㄷㄷ [34]	헤르푸	03.26	5394	39
448703	일반	gpt5 라마3 출시 루머 [37]	ㅇㅇ(211.59)	03.26	5044	29
448621	일반	"아, 아 마이크 테스트" [41]	ㅇㅇ(1.230)	03.26	4934	45
448612	정보	소라 영상 현.직자들이 만든 영상 [35]	ㅇㅇ	03.26	6269	31
448596	일반	소라 현.직자들이랑 작업한 후기 떴네 [19]	ㅇㅇ	03.26	4088	35
448243	일반	척추분리증 : 줄기세포 치료 정보 [5]	ㅇㅇ(221.154)	03.25	1276	31
448140	일반	특이점 용어 창시자 근황 [35]	ㅇㅇ(123.100)	03.25	5312	55
448133	정보	Google AI는 곧 사람의 기침을 이용해 질병을 진단할 수 있습니다. [36]	ㅇㅇ	03.25	2777	25
448130	일반	트랜스포머 재밌는 특성(딥러닝갤 펌) [25]	솔.이☆	03.25	3613	35
448095	정보	펌)DenseFormer: 레이어 수 적은 모델로 뛰어난 성능 달성 [12]	ㅇㅇ	03.25	1688	31
448043	AI창 AI창작	특이점갤러리 새끼들아 [12]	ㅇㅇ	03.24	2874	25
448042	일반	슬슬 '진짜로' 불안하면 개추... [30]	ㅇㅇ	03.24	6036	42
447984	일반	스압)음악계 종사자들이 AI에 대해 생각보다 호의적일 수 있는 이유 [44]	ㅇㅇ	03.24	3850	46
447983	일반	오픈ai 연구원 입털었다!! [26]	ㅇㅇ	03.24	4051	33
447973	일반	2박 3일 동안 클로드3 오푸스로 폭딸 친후기.feat. 가격 [28]	얼리딸답터	03.24	3970	33
447959	일반	그림쟁이들이 ai한테 가장 피해본놈들이지 [17]	ㅇㅇ(58.29)	03.24	2507	43
447952	정보	매우 간단하게 LLM 집컴으로 돌리는 방법 (LM Studio) [4]	ㅇㅇ(121.151)	03.24	2374	23
447878	일반	와 ㅅㅂ 짱개 ai랑 노는데 재밌노ㅋㅋㅋㅋㅋㅋ [18]	ㅇㅇ(175.125)	03.24	3522	34
447705	일반	사이버렉카 수준.. [14]	ㅇㅇ(1.239)	03.24	1947	32
447656	일반	이제는 토큰이 아니라 바이트의 세상을 열어야함 [10]	ㅇㅇ(125.134)	03.24	3272	29
447567	AI창 AI창작	선형충의 승리 [15]	ㅇㅇ(182.209)	03.24	4475	41
447490	일반	결국 미국정부에게 반독점소송 쳐맞는 애플 [14]	ㅇㅇ(223.39)	03.24	2636	27
447467	정보	(근거있음) ai가 버블일 수 있는 합리적인 이유.txt [89]	ㅇㅇ(106.102)	03.24	5618	51
447458	정보	AI챗봇 출시 첫날 1000여명 수천 회 상담 [16]	ㅇㅇ	03.24	2496	26
447412	일반	비트넷 재현 실험 [21]	oo(119.202)	03.24	3491	31
447365	일반	Stability AI CEO 추노한거 돈때문만은 아니네 [4]	ㅇㅇ	03.24	1521	24
447282	정보	얼마나 다급하면…AI 경쟁 뒤처진 애플, 구글 이어 中 바이두에 SOS [22]	니지카엘	03.23	2600	27
447267	일반	밑에 올라온 haiper ai 로 만든 영상들 가져와봄 [8]	따뜨	03.23	1548	20
447232	일반	새삼스럽지만 인생 존나 재미없지 않냐? [9]	ㅇㅇ(119.204)	03.23	342	10
447228	일반	무료로 2초분량의 영상을 제작해주는 Haiper AI [3]	ㅇㅇ(211.226)	03.23	1669	20
447184	정보	뉴럴링크 새 영상 가져왔다.nintendo [26]	ㅇㅇ(180.228)	03.23	4216	50
447154	AI창 AI창작	NAI)극후방 멍멍이 아코 [16]	Samus	03.23	811	12