1.58 비트넷 저자들 추가 발표 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 부재중입니다.(hnn12) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보] 1.58 비트넷 저자들 추가 발표

ㅇㅇ(123.100) 2024.03.21 01:03:03

조회 3271 추천 71 댓글 41

7cf3c028e2f206a26d81f6e140817568

https://github.com/microsoft/unilm/tree/master/bitnet

마이크로소프트 언어모델 관련 깃허브에 오늘 추가 자료 올라옴

The Era of 1-bit LLMs: Training Tips, Code and FAQ

그리 길지는 않아서 전체적으로 보고 왔음

7ff3c028e2f206a26d81f6e44786716c5a

저자들도 회의적인 반응들이 꽤 있어서 그랬는지,

논문에 'Believing is seeing.' 이라고 박아 놓음

(직접 보면 안 믿을 수 없을 것이다.)

어떻게 학습했는지와 학습 과정에 대한 보다 구체적인 자료, 하이퍼파라미터 등 공개하고

어떻게 파이토치로 구현하는지도 공개함

37beca25abc236a14e81d2b628f1756b624f4f

이번 보고서에서 공개한 그래프

저자들은 1.58 BitNet이 S자형 손실 곡선을 보여준다고 말함

7fee8275abc236a14e81d2b628f17269761562

그리고 이 그래프가 이 보고서의 핵심이라고 볼 수도 있는데,

모델 크기가 커지면 커질 수록 전체 정밀도 모델과 학습 손실 차이가 줄어드는 경향을 보여줌

아래는 저자들이 써놓은 FAQ

1. 삼항 {-1, 0, 1} 말고 딴건 왜 안씀?

{-1, 1} : 원래 BitNet b1(저자들의 이전 논문)에서 구현이었는데 성능이 삼항보다 딸렸음

{0, 1} : 최적화가 매우 불안정함

{-2, -1, 0, 1} or {-2, -1, 0, 1, 2}같이 추가적인 비트 사용 : 삼항 {-1, 0, 1}하고 별 차이 없어서 안씀

2. 훈련도 빨라짐?

현재 구현은 여전히 FP16/BF16에 있어서 실험에서 실제 속도 향상은 없음

하지만 대형 모델의 경우 가속화할 수 있는 상당한 기회가 있음

3. BitNet이 더 큰 모델에도 작동함?

"The Era of 1-bit LLMs" 논문에서 공개한 것처럼 완전 정밀도 LLM과 BitNet 1.58 사이의 간격이 모델 크기가 커짐에 따라 작아지는 것을 보여주는 명확한 추세가 있음

이는 BitNet이 더 큰 모델에 더욱 효과적이라는 것을 의미함

오히려 BitNet은 더 큰 모델 크기에서 더 나은 성능을 발휘함

1.58 비트 모델은 더 나은 일반화 기능을 제공하고 과적합이 덜 발생할 수 있음

그리고 아래에 파이토치 기반 구현 코드도 공개했는데, 되게 간단해서 금방 사람들이 실험해볼 듯

이번에도 여전히 저자들의 주장이기는 하나

저자들은 믿음이 굉장히 굳건해보인다.

끗

고정닉 23

원본 첨부파일 4본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2853	설문	연인과 헤어지고 뒤끝 작렬할 것 같은 스타는?	운영자	24/04/22	-	-
458231	정보	닉 보스트롬 "AI는 실존적 희망의 원천" [10]	ㅇㅇ(125.191)	04.21	2664	31
458219	일반	얀르쿤 피셜 "오픈소스 하자고한건 맞는데 라마3 내가 직접만든건 아님" [22]	ㅇㅇ(59.17)	04.21	3232	22
458194	정보	라마3 챗봇 아레나 근황.. [6]	ㅇㅇ(123.100)	04.21	3278	23
458139	일반	이제 하다하다 야갤 유동 글을 믿네 [9]	Samus	04.20	466	14
458112	정보	라마3 70b 초당 3000토큰 가능 [7]	noosphere	04.20	2263	23
458089	정보	(AI겨울)주커버그는 AGI가 멀었다고 생각합니다 [26]	ㅇㅇ(123.100)	04.20	3881	25
458068	일반	403.. 이게 무슨 숫자인지 아시나요? [9]	ㅇㅇ(59.3)	04.20	2741	31
458049	정보	이너코스모스, 우울증 치료하는 뇌 임플란트 출시...간단한 수술이 장점 [12]	ㅇㅇ(182.230)	04.20	796	23
458019	정보	젠슨 황: 머지않은 미래 적절가격에 휴머노이드 보급 가능 [42]	noosphere	04.20	3183	26
457991	정보	한국이 파운데이션 모델 '0'을 기록한 이유는 [15]	ㅇㅇ(182.230)	04.20	2363	25
457974	일반	르쿤햄) 라마3 성능의 비결 [33]	ㅇㅇ(121.133)	04.20	2781	28
457963	정보	안드레 카파시의 라마3 평가 [11]	ㅇㅇ(182.230)	04.20	2174	26
457928	일반	agi 은근슬쩍 내려치기 하는 놈들이 보이네 [27]	ㅇㅇ(1.237)	04.20	2621	24
457897	일반	AGI가 코앞이 아닌거 같은 이유 [78]	ㅇㅇ(1.234)	04.20	4064	34
457875	일반	르쿤게이도 라마3 기여했다 [8]	ㅇㅇ(123.100)	04.20	1687	23
457850	일반	정치충은 막는게 맞음 [29]	ㅇㅇ(106.101)	04.20	1618	29
457839	일반	르쿤이 메타 LLM팀 아님 [7]	ㅇㅇ(125.191)	04.20	1493	20
457752	일반	한 남자의 어록 모음 [37]	agi2024	04.19	3025	51
457748	일반	???: ㅋㅋ 고작 이딴걸로 좋아하네 [13]	agi2024	04.19	3080	23
457691	일반	이미 로펌에서 GPT-4 로 변론서 작성중이라는데 ㅋㅋㅋㅋㅋ [13]	ㅇㅇ(124.49)	04.19	2648	24
457690	일반	역시 르쿤이형이냐 [12]	ㅇㅇ(59.11)	04.19	1911	56
457641	정보	(오피셜) 라마3 곧 추가될 기능들 [15]	ㅇㅇ(123.100)	04.19	2585	27
457620	일반	405B 짜리는 GPT-4 터보 걍 좆바르겠노 ㅋㅋ [8]	ㅇㅇ(123.100)	04.19	2109	20
457615	일반	라마3 한국어로 쓰고 실망 ㄴㄴ [4]	ㅇㅇ(123.100)	04.19	2145	19
457613	일반	챗봇아레나 라마3 성능 돌아버렸네 ㅋㅋㅋㅋㅋㅋㅋㅋ [6]	ㅇㅇ(110.145)	04.19	2098	21
457608	정보	라마3 Chatbot arena 리더보드 순위 미쳤노ㅋㅋㅋ [4]	ㅇㅇ(123.100)	04.19	1199	19
457522	정보	MS '대화하는 얼굴' VASA-1 작동 영상 [6]	ㅇㅇ	04.19	1173	22
457509	정보	오늘 있던 Oai 강연 + 앞로 있을 3개 [12]	ㅁㄴㅇㄹ	04.19	1830	22
457496	일반	라마3 400b 성능은 gpt-4보다 훨씬 높을수도 [14]	ㅇㅇ(110.145)	04.19	1633	19
457481	정보	chagpt가 특정 단어를 반복하는 이유에 대한 기사가 나왔네 [17]	ㅇㅇ	04.19	2202	24
457455	일반	라마3는 충분히 기뻐할만한 일 아님? [15]	ㅇㅇ(211.44)	04.19	2300	46
457454	일반	라마 매력봐라 ㅅㅂㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [14]	아디라스	04.19	3344	33
457432	일반	라마3 아이폰에서 구동 성공 [15]	rtOS	04.19	2493	23
457416	일반	라마4 떡밥 [3]	특술람	04.19	1011	22
457400	정보	스탠포드 피셜)) 분야별 ai발전 속도 인덱스 [19]	lightvector	04.19	2535	27
457399	정보	메타 실시간 이미지 생성 발표 [9]	특술람	04.19	2684	30
457358	일반	라마3 동양인 혐오하네 ㅇㅇ [19]	ㅇㅇ	04.19	3111	33
457357	일반	솔직히 라마 좃도 안기쁘면 개추 ㅋㅋ [20]	ㅇㅇ(210.205)	04.19	2779	30
457344	AI창 AI창작	수노3) 라마가 부른 노래 만들어봄 [8]	ㅇㅇ	04.19	1202	17
457310	일반	라마3 70b 사용해볼수있게 허깅쳇에 떳다 [7]	ㅇㅇ	04.19	2071	24
457304	정보	찬양하라ㅡMeta. [4]	ㅇㅇ(123.100)	04.19	1829	28
457303	정보	라마3에 사용된 인간 주석데이터양 ㄷㄷㄷ [8]	ㅇㅇ(123.100)	04.19	2342	20
457301	정보	라마2vs3 발전속도 보기.. [7]	ㅇㅇ(123.100)	04.19	1951	21
457300	일반	Meta는 오픈소스 AGI를 위한 데이터센터 구축 중 [12]	모브	04.19	1345	23
457272	정보	오피셜) GPT4 API 사망 [6]	ㅇㅇ(123.100)	04.19	3134	32
457260	일반	라마3 400b와 4터보 벤치 [8]	ㅇㅇ(175.124)	04.19	1581	16
457254	일반	개념글 빨리 올려라 시발 ㅋㅋ [10]	lightvector	04.19	1838	29
457232	일반	GPT4 초 멸망ㅋㅋㅋㅋ [2]	ㅇㅇ(123.100)	04.19	2567	22
457213	정보	라마3 벤치마크 [16]	ㅇㅇ(211.59)	04.19	1968	22
457172	일반	라마3 70b [5]	특술람	04.18	1729	28