1.58 비트넷 저자들 추가 발표 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보/뉴스] 1.58 비트넷 저자들 추가 발표

ㅇㅇ(123.100) 2024.03.21 01:03:03

조회 3292 추천 71 댓글 41

7cf3c028e2f206a26d81f6e140817568

https://github.com/microsoft/unilm/tree/master/bitnet

마이크로소프트 언어모델 관련 깃허브에 오늘 추가 자료 올라옴

The Era of 1-bit LLMs: Training Tips, Code and FAQ

그리 길지는 않아서 전체적으로 보고 왔음

7ff3c028e2f206a26d81f6e44786716c5a

저자들도 회의적인 반응들이 꽤 있어서 그랬는지,

논문에 'Believing is seeing.' 이라고 박아 놓음

(직접 보면 안 믿을 수 없을 것이다.)

어떻게 학습했는지와 학습 과정에 대한 보다 구체적인 자료, 하이퍼파라미터 등 공개하고

어떻게 파이토치로 구현하는지도 공개함

37beca25abc236a14e81d2b628f1756b624f4f

이번 보고서에서 공개한 그래프

저자들은 1.58 BitNet이 S자형 손실 곡선을 보여준다고 말함

7fee8275abc236a14e81d2b628f17269761562

그리고 이 그래프가 이 보고서의 핵심이라고 볼 수도 있는데,

모델 크기가 커지면 커질 수록 전체 정밀도 모델과 학습 손실 차이가 줄어드는 경향을 보여줌

아래는 저자들이 써놓은 FAQ

1. 삼항 {-1, 0, 1} 말고 딴건 왜 안씀?

{-1, 1} : 원래 BitNet b1(저자들의 이전 논문)에서 구현이었는데 성능이 삼항보다 딸렸음

{0, 1} : 최적화가 매우 불안정함

{-2, -1, 0, 1} or {-2, -1, 0, 1, 2}같이 추가적인 비트 사용 : 삼항 {-1, 0, 1}하고 별 차이 없어서 안씀

2. 훈련도 빨라짐?

현재 구현은 여전히 FP16/BF16에 있어서 실험에서 실제 속도 향상은 없음

하지만 대형 모델의 경우 가속화할 수 있는 상당한 기회가 있음

3. BitNet이 더 큰 모델에도 작동함?

"The Era of 1-bit LLMs" 논문에서 공개한 것처럼 완전 정밀도 LLM과 BitNet 1.58 사이의 간격이 모델 크기가 커짐에 따라 작아지는 것을 보여주는 명확한 추세가 있음

이는 BitNet이 더 큰 모델에 더욱 효과적이라는 것을 의미함

오히려 BitNet은 더 큰 모델 크기에서 더 나은 성능을 발휘함

1.58 비트 모델은 더 나은 일반화 기능을 제공하고 과적합이 덜 발생할 수 있음

그리고 아래에 파이토치 기반 구현 코드도 공개했는데, 되게 간단해서 금방 사람들이 실험해볼 듯

이번에도 여전히 저자들의 주장이기는 하나

저자들은 믿음이 굉장히 굳건해보인다.

끗

고정닉 23

원본 첨부파일 4본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2861	설문	어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는?	운영자	24/05/20	-	-
450384	일반	[르쿤] AGI 오려면 10년은 족히 걸린다 [12]	ㅇㅇ(218.50)	03.29	2444	39
450329	일반	법조계 ai로 빨리 대체되어야함 전관예우? 지랄한다 [24]	ㅇㅇ(121.170)	03.29	1915	58
450300	일반	특갤 그래프 그려봤음 [13]	ㅇㅇ(175.200)	03.29	1949	70
450217	일반	바이든, 모든 국가기관에 AI 최고 책임자를 임명하라 명령 [18]	슈퍼130클럽	03.29	2508	35
450206	일반	밭갈이새끼들 꺼져라 좀 [14]	ㅇㅇ	03.29	1738	56
450165	일반	AI 최전선 연구원들이 자꾸 트윗 찌라시 올리는 이유 [8]	ㅇㅇ(119.206)	03.29	2731	56
450083	일반	현재 정말 위험해지고 있다는 AI 발달 근황 [9]	ㅇㅇ(222.112)	03.29	1949	25
450049	일반	얀르쿤이 맞았네 그럼 [3]	ㅇㅇ(175.124)	03.29	1636	42
450044	일반	오픈ai 연구원 "10년 후면 재귀개선 가능" [36]	ㅇㅇ(119.206)	03.29	3714	53
450018	일반	이번에 언급된 oai이사 래리 서머스에 대해 알아보자 [25]	ㅇㅇ(147.47)	03.29	1495	35
449987	정보/ 정보/뉴스	그록 1.5 요약 [8]	ㅇㅇ(123.100)	03.29	1632	22
449986	정보/ 정보/뉴스	그록 1.5 발표 [11]	ㅇㅇ	03.29	1479	24
449960	일반	차단글 내용 공개 [16]	ㅇㅇ	03.29	1531	29
449945	일반	oai 이사회 멤버"ai가 거의 모든 형태의 노동을 대체할것" [25]	ㅇㅇ(211.59)	03.29	2773	34
449943	일반	ㅋㅋㅋ 차단질 얼마나 심하게 했으면 [34]	ㅇㅇ(112.170)	03.29	2006	29
449893	일반	아래에 있는 뇌 손상 장기기억 어쩌구를 오독하는 사람들이 좀 있어서 씀. [25]	ㅇㅇ(1.245)	03.29	2154	27
449891	정보/ 정보/뉴스	최고 오픈소스 DBRX 후기 [7]	ㅇㅇ(123.100)	03.29	1851	28
449883	정보/ 정보/뉴스	21세기에 부활한 범선, 윈드윙 [9]	ㅇㅇ(182.230)	03.29	2087	28
449879	정보/ 정보/뉴스	기존의 디퓨전 모델보다 30배 빠른 이미지 생성 기술 [9]	ㅇㅇ(182.230)	03.28	532	10
449877	정보/ 정보/뉴스	오픈소스 중 최고 성능 LLM 모델, DBRX 발표 [7]	lightvector	03.28	1906	31
449874	일반	얘야~ 존경하는 사람이 누구니? [3]	ㅇㅇ	03.28	1339	21
449872	정보/ 정보/뉴스	최초의 프로덕션 규모 Mamba, Jamba 공개 [12]	ㅇㅇ(123.100)	03.28	1491	34
449860	일반	안전벨트 매세요 죽지 마세요 내년은 어메이징할 것 [17]	ㅇㅇ(49.142)	03.28	2680	57
449847	정보/ 정보/뉴스	노력이 아무의미 없어지는 것은 인류는 이미 경험했었다 [11]	ㅇㅇ(169.150)	03.28	1943	48
449831	정보/ 정보/뉴스	안드레이 카파시 비트넷 언급 [8]	ㅇㅇ(123.100)	03.28	1586	29
449825	일반	클로바X 성능 지리네; [41]	ㅇㅇ(112.153)	03.28	3361	91
449811	정보/ 정보/뉴스	인텔, "MS의 Copilot AI가 곧 PC에서 로컬로 실행될 것" [10]	니지카엘	03.28	2093	27
449800	일반	2055년 GPT-48 공개... [24]	ㅇㅇ(211.200)	03.28	3078	102
449658	정보/ 정보/뉴스	채신논문) 대규모 언어 모델에서 언어와 사고 분리하기 (2) [9]	ㅇㅇ	03.28	1529	30
449641	정보/ 정보/뉴스	채신논문) 대규모 언어 모델에서 언어와 사고 분리하기 (1) [3]	ㅇㅇ	03.28	1936	38
449617	일반	모르면 걍 좀 여물고 살아 [13]	샤카	03.28	2811	55
449575	일반	오늘자 엔비디아, 메타 뉴스. [6]	ㅇㅇ(61.105)	03.28	2577	27
449560	일반	그짝갤에서 온애들은 걍 티가남 [11]	ㅇㅇ(14.53)	03.28	1906	50
449553	일반	아무리 생각해도 오픈ai 스캠 느낌이 살짝씩 난다 [63]	ㅇㅇ(125.184)	03.28	3995	81
449520	역노화	'회춘약' 개발 초읽기…"생쥐실험 성공" [21]	ㅇㅇ(106.102)	03.28	3158	32
449486	정보/ 정보/뉴스	ai로 암진단... 정확도 90% [10]	ㅂㄷ(118.235)	03.28	501	10
449472	정보/ 정보/뉴스	아마존 앤트로픽에 27억 5천만 달러 추가 투자 [14]	ㅇㅇ(211.59)	03.28	1648	25
449462	정보/ 정보/뉴스	AI는 맥주 맛을 더 좋게 만드는 방법을 알려줄 수 있습니다 [25]	ㅇㅇ	03.28	915	21
448995	정보/ 정보/뉴스	AI로 자간전증에 대한 망막 바이오마커 식별 [15]	ㅇㅇ	03.27	2003	25
449080	정보/ 정보/뉴스	Claude 3 Opus, LMSYS 리더보드 GPT-4 제치고 1위 [16]	니지카엘	03.27	2820	25
449385	정보/ 정보/뉴스	"오픈AI 연봉이 130억"…저커버그, AI 인재 유출에 직접 나섰다 [16]	ㅇㅇ(58.140)	03.27	2720	25
449377	정보/ 정보/뉴스	실리콘 밸리서 알트먼 비난 증가..."AI의 알렉산더 대왕 되려고 해" [19]	ㅇㅇ(58.140)	03.27	2515	29
449371	일반	현재 메타 AI 연구원 대탈출 중 [37]	ㅇㅇ(123.100)	03.27	3952	42
449303	정보/ 정보/뉴스	AI '종말'로 인해 영국에서 약 800만 개의 일자리가 사라질 수 있다 [13]	부패하는유전자!!!	03.27	2300	27
449347	일반	Ai 덕분에 10개국어 가능해진 백만 유튜버 근황 [9]	ㅇㅇ(116.120)	03.27	3307	23
449305	역노화	연구원들은 도입된 완보동물 단백질이 인간 세포의 신진대사를 늦출 수 있음 [14]	부패하는유전자!!!	03.27	2410	31
449315	정보/ 정보/뉴스	채신논문) 어째서 새들은 그렇게 똑똑한가? [20]	ㅇㅇ	03.27	3047	57
448975	정보/ 정보/뉴스	설문결과, 거의 절반이 AI로 직원 대체 목표 중 [14]	ㅇㅇ(123.100)	03.26	2869	27
449166	정보/ 정보/뉴스	안드레이 카파시 "언어모델 운영체제를 통해 AGI로 가는 길" [13]	ㅇㅇ(111.171)	03.27	2242	31
448985	일반	알트먼 느낌 존나 싸하긴하네 ㅋㅋㅋㅋ [7]	상한포도	03.26	1259	13