1.58 비트넷 저자들 추가 발표 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보/뉴스] 1.58 비트넷 저자들 추가 발표

ㅇㅇ(123.100) 2024.03.21 01:03:03

조회 3293 추천 71 댓글 41

7cf3c028e2f206a26d81f6e140817568

https://github.com/microsoft/unilm/tree/master/bitnet

마이크로소프트 언어모델 관련 깃허브에 오늘 추가 자료 올라옴

The Era of 1-bit LLMs: Training Tips, Code and FAQ

그리 길지는 않아서 전체적으로 보고 왔음

7ff3c028e2f206a26d81f6e44786716c5a

저자들도 회의적인 반응들이 꽤 있어서 그랬는지,

논문에 'Believing is seeing.' 이라고 박아 놓음

(직접 보면 안 믿을 수 없을 것이다.)

어떻게 학습했는지와 학습 과정에 대한 보다 구체적인 자료, 하이퍼파라미터 등 공개하고

어떻게 파이토치로 구현하는지도 공개함

37beca25abc236a14e81d2b628f1756b624f4f

이번 보고서에서 공개한 그래프

저자들은 1.58 BitNet이 S자형 손실 곡선을 보여준다고 말함

7fee8275abc236a14e81d2b628f17269761562

그리고 이 그래프가 이 보고서의 핵심이라고 볼 수도 있는데,

모델 크기가 커지면 커질 수록 전체 정밀도 모델과 학습 손실 차이가 줄어드는 경향을 보여줌

아래는 저자들이 써놓은 FAQ

1. 삼항 {-1, 0, 1} 말고 딴건 왜 안씀?

{-1, 1} : 원래 BitNet b1(저자들의 이전 논문)에서 구현이었는데 성능이 삼항보다 딸렸음

{0, 1} : 최적화가 매우 불안정함

{-2, -1, 0, 1} or {-2, -1, 0, 1, 2}같이 추가적인 비트 사용 : 삼항 {-1, 0, 1}하고 별 차이 없어서 안씀

2. 훈련도 빨라짐?

현재 구현은 여전히 FP16/BF16에 있어서 실험에서 실제 속도 향상은 없음

하지만 대형 모델의 경우 가속화할 수 있는 상당한 기회가 있음

3. BitNet이 더 큰 모델에도 작동함?

"The Era of 1-bit LLMs" 논문에서 공개한 것처럼 완전 정밀도 LLM과 BitNet 1.58 사이의 간격이 모델 크기가 커짐에 따라 작아지는 것을 보여주는 명확한 추세가 있음

이는 BitNet이 더 큰 모델에 더욱 효과적이라는 것을 의미함

오히려 BitNet은 더 큰 모델 크기에서 더 나은 성능을 발휘함

1.58 비트 모델은 더 나은 일반화 기능을 제공하고 과적합이 덜 발생할 수 있음

그리고 아래에 파이토치 기반 구현 코드도 공개했는데, 되게 간단해서 금방 사람들이 실험해볼 듯

이번에도 여전히 저자들의 주장이기는 하나

저자들은 믿음이 굉장히 굳건해보인다.

끗

고정닉 23

원본 첨부파일 4본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2863	설문	시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는?	운영자	24/05/27	-	-
463605	일반	gpt2는 간보기 용도인가	ㅇㅇ(112.186)	05.07	65	0
463603	일반	약간 충격받은 also gpt-2 후기 [12]	컴퓨터비전	05.07	4399	17
463600	일반	니늘 GPT2어디서 쓰고 있냐? [2]	카탁프락T	05.07	193	0
463599	일반	gpt5가 슬슬 나오기 시작하네	ㅇㅇ(59.16)	05.07	156	0
463597	일반	also gpt 진짜 미쳤는데? [2]	ㅇㅇ	05.07	2575	12
463595	일반	also gpt2 코드 퀄리티가 다르네	깍쟁	05.07	180	2
463594	일반	gpt2는 gpt-2가 아니네 [1]	컴퓨터비전	05.07	164	0
463593	일반	진짜 궁금 [1]	특탁(112.160)	05.07	84	0
463592	일반	im-also-a-good-gpt2-chatbot 얘 뭐냐 시발 [2]	ㅇㅇ(110.145)	05.07	362	1
463591	일반	초지능님께 나를 사랑해주는 미소녀를 만들어달라고 [1]	ㅇㅇ(221.164)	05.07	45	0
463590	일반	근데 GPT2한테 모델명 물어보면 GPT4라고 답하네 [2]	월코존버	05.07	168	0
463588	일반	gpt2는 뭐냐? 로컬임?	noosphere	05.07	107	0
463587	정보/ 정보/뉴스	아레나) gpt2, gpt-4, 클로드3 사칙연산 테스트 결과 [10]	ㅇㅇ	05.07	2210	17
463586	일반	지렸다 also-gpt2한테 프로덕션레벨급 코드 [7]	초존도초	05.07	353	0
463585	일반	아래 시크릿 라마 저거 먼데?	ㅇㅇ(112.161)	05.07	67	0
463584	일반	ㅋㅋGPT2 작문 실력 확실히 늘어나긴했네 [3]	월코존버	05.07	2018	22
463583	일반	기득권 입장에서	특탁(112.160)	05.07	75	0
463582	일반	와 also 대박이네 [7]	적절한김대기(221.141)	05.07	412	0
463581	일반	써보고 싶은데 왜 안보임;; [1]	람냥	05.07	100	1
463580	일반	버핏 애플주9식 던진거 웃기노 [1]	ㅇㅇ(220.93)	05.07	167	0
463464	정보/ 정보/뉴스	GPT4 한국어 토큰 효율화, 2.36=>1.1 [10]	호감고닉유동	05.07	567	5
463579	정보/ 정보/뉴스	Secret Llama - WebGPU로 구동되는 Llama 3 구현체 [1]	니지카엘	05.07	153	1
463578	정보/ 정보/뉴스	Hello Who are you? [1]	초존도초	05.07	106	3
463577	일반	알트만 하는거보면 GPT5 시원찮을것같은데	비오는날의개구리	05.07	101	0
463576	일반	gpt5가 여름얘기 어디서 나온거임? [3]	ㅇㅇ(221.158)	05.07	130	0
463574	일반	gpt 새 모델 2개네	ㅇㅇ(211.59)	05.07	188	0
463571	일반	산수능력 테스트에서 gp2보다 also-gpt2가 더 나음 [1]	초존도초	05.07	249	0
463570	역노화	지금 AI기술은 너무 열약해서 더 발전해야지	아메바이든	05.07	96	0
463568	정보/ 정보/뉴스	"MS, 구글·오픈AI에 맞설 새 AI 모델 'MAI-1' 학습 중" [3]	lightvector	05.07	176	1
463567	일반	이새끼뭐냐?	ㅇㅇ(112.186)	05.07	157	0
463566	일반	gpt2 2개인데? [3]	ㅁㄴㅇㄹ	05.07	375	0
463565	일반	gpt2 vs Opus-0229 산수 능력	초존도초	05.07	145	0
463564	일반	비장애인이 장애인 혐오하는거 규제하듯이 AI도 규제해야지	아메바이든	05.07	57	0
463563	일반	내 외모 골격 완전히 바꾸는 기술 개발할때까지 AI규제 반대함 [4]	아메바이든	05.07	159	0
463561	일반	알트만쉑 챗봇아레나로 간보는거 킹받네 [1]	ㅇㅇ(218.52)	05.07	174	0
463560	일반	지금 기다릴만한 호재	ㅇㅇ(58.29)	05.07	55	0
463559	일반	Asi정렬할려면 결국에는	ㅇㅇ(58.29)	05.07	44	0
463558	일반	gpt2 다시 아레나 복귀 [6]	ㅇㅇ(59.17)	05.07	411	2
463557	일반	내가 진짜 빡치는게 뭔줄아냐?	ㅇㅇ	05.07	107	0
463556	일반	AI규제하는 사람들 죄다 기득권 유명인임. [6]	아메바이든	05.07	195	0
463555	일반	임마 이거 왜 이럼? 환각임? [5]	ㅇㅇ(163.239)	05.07	332	0
463554	일반	이제 다들 AI를 인정하고 투자해줬으면좋겠다	ㅇㅇ	05.07	89	0
463553	일반	저거 카운트 다운 진짜야? [3]	ㅇㅇ(210.113)	05.07	293	0
463551	일반	Gpt5 출시 한달남았다 [7]	헬스토끼	05.07	508	1
463550	일반	니미애플: 알트만 장난 그만쳐 [1]	ㅇㅇ(119.77)	05.07	406	1
463548	토의	ASI 내지 AGI는 누가 정렬해? [1]	Ad_Astra	05.07	106	0
463545	일반	진짜진짜진짜진짜진짜진짜진짜 큰거 오냐?	Dazbee	05.07	178	0
463543	정보/ 정보/뉴스	일론 "인간지능 대부분 디지털 될 것…잔인한 AI 막아야" [2]	lightvector	05.07	375	1
463542	일반	gpt로그인 없이도 쓸수 있게 해놨다고 했으면서 왜 정작 웹 들어가면	ㅇㅇ(14.42)	05.07	85	0
463541	일반	좆트만 개패고싶으면개추	ㅇㅇ(14.53)	05.07	187	10