bitnet 새논문 클로드로 일반인용 설명 해왔음 - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 은바다(nmra3fmz…)

개설일

2019-08-01

[일반] bitnet 새논문 클로드로 일반인용 설명 해왔음

ㅇㅇ(211.46) 2024.03.21 02:20:43

조회 327 추천 14 댓글 8

이 논문에서는 기존의 언어모델과 1-bit 모델들을 개선한 BitNet b1.58이라는 새로운 모델을 소개하고 있어요.

먼저 기존의 언어모델들은 보통 32비트나 16비트의 부동소수점을 사용해요. 부동소수점은 십진수를 이진수로 그대로 표현한 것이라고 보면 되는데, 굉장히 정확하지만 그만큼 데이터 크기가 커요. 반면 BitNet b1.58은 겨우 1.58비트만 써서 모델을 표현해요.

어떻게 그게 가능한 걸까요? 바로 {-1, 0, 1}이라는 세 가지 값만 쓰는 거에요. -1은 음수, 0은 0, 1은 양수를 나타내죠. 이 세 가지만 쓰면 모든 수를 표현할 순 없지만, 언어모델에 필요한 정보는 충분히 담을 수 있대요. 마치 10, 20, 50원짜리 동전만 가지고도 물건을 충분히 살 수 있는 것처럼요.

또 기존에는 1-bit 모델도 있었어요. 이건 {-1, 1} 두 가지 값만 쓰는 건데, BitNet b1과 비교했을 때는 성능이 좀 떨어졌대요. 특히 모델 크기가 작을수록 그 차이가 컸다고 해요. 물론 {0, 1}처럼 0과 양수만 쓰는 것도 해봤는데, 이건 학습이 잘 안 돼서 금방 포기했대요.

그 밖에도 {-2, -1, 0, 1, 2} 이렇게 좀 더 다양한 숫자를 쓰는 것도 시도해봤어요. -2나 2는 비트 연산으로 쉽게 구현할 수 있거든요. 근데 {-1, 0, 1} 세 가지만 써도 충분히 잘 되길래, 저자는 왜 괜히 복잡하게 하나 싶었나 봐요. 이건 마치 필요 이상으로 많은 종류의 동전을 만드는 것과 비슷하죠.

흥미로운 점은 BitNet b1.58의 성능이 모델 크기가 커질수록 더 좋아진다는 거에요. 작은 모델에서는 기존 방식이랑 별 차이가 없는데, 모델이 커지면 그 격차가 줄어든대요. 이는 마치 큰 금액을 동전으로 낼 때 그 위력이 발휘되는 것과 비슷해 보여요.

이처럼 BitNet b1.58은 기존 모델들의 장점은 그대로 가져오면서, 단점은 보완한 셈이에요. 앞으로는 더더욱 큰 언어모델도 쉽게 만들 수 있게 될 것 같아요.

이 논문에서는 BitNet b1.58을 학습시킬 때 사용한 여러 가지 트릭들도 소개하고 있어요.

먼저 Loss Curve라는 걸 봤더니 S자 모양으로 생겼대요. 보통은 점점 낮아지는 게 정상인데 말이죠. 이게 의미하는 건, 중간 결과만 보고 성능을 예측하기 힘들다는 거예요. 마치 시험 공부를 할 때, 초반에는 큰 진전이 없다가 막판에 성적이 확 오르는 것과 비슷해요.

그리고 Learning Rate라는 것도 조절했어요. 이건 공부의 속도를 조절하는 것과 같아요. BitNet b1.58은 기존 모델보다 높은 Learning Rate에서도 안정적이래요. 공부를 빨리해도 흔들리지 않는 모범생 같은 거죠. 게다가 중간에 속도를 좀 줄이니까 오히려 성능이 더 올랐대요.

또 Weight Decay라는 기술도 썼어요. 이건 마치 습관처럼 굳어진 지식을 서서히 잊게 하는 것과 같아요. 근데 BitNet에서는 중반 이후에 이걸 끄는 게 더 좋더라고요. 처음에는 유연하게 학습하다가, 나중에는 확실히 아는 것에 집중하는 셈이죠.

논문에서는 이런 기술들 덕분에 BitNet b1.58이 기존 모델들보다 더 빨리, 더 안정적으로 학습할 수 있었다고 해요. 마치 공부 잘하는 비결을 터득한 학생 같아 보여요.

아, 그리고 실험 결과에 대해서도 좀 더 자세히 알려줬어요. 모델 크기별로 성능을 비교해 봤더니, 역시 크기가 클수록 BitNet이 기존 모델을 따라잡더라고요. 가장 큰 3B 모델에서는 성능이 거의 같았대요. 물론 실전에서는 훨씬 더 큰 모델을 쓸 거예요.

논문에서는 BitNet의 성능을 더 끌어올리기 위해 Activation과 KV cache라는 것들에 대해서도 실험했어요.

Activation은 모델 내부에서 정보가 전달될 때 거치는 일종의 관문 같은 거예요. 이걸 8비트로 줄이니까 성능이 많이 떨어지더라고요. 그래서 그 중에서도 중요한 것들은 8비트로 놔두고, 나머지는 4비트로 줄였대요. 마치 반 학생들 중에 특별히 도움이 필요한 친구들은 좀 더 신경 쓰는 것과 비슷해요.

KV cache는 모델이 이전에 학습한 내용을 저장해두는 곳이에요. 여기에 들어있는 정보는 4비트로 압축해도 아무런 문제가 없었대요. 모델이 공부한 내용을 압축해서 저장해둔다고 생각하면 되겠네요.

또 한 가지 흥미로운 점은, 실험에 사용된 하드웨어예요. 논문에서는 BitNet을 학습시킬 때 특별히 고안된 하드웨어를 사용하지는 않았어요. 하지만 BitNet은 그런 특수한 하드웨어로 최적화하기 아주 좋대요. 마치 일반 운동장에서도 잘 뛰는 선수를 좋은 운동장에서 더 훈련시키는 것처럼요.

그리고 앞으로는 학습 속도도 더 빨라질 거래요. 지금은 BitNet을 학습시킬 때 보통 컴퓨터를 썼지만, 앞으로는 전용 하드웨어를 쓰면 훨씬 빨라질 수 있대요. 마치 페라리를 타면 훨씬 빨리 달릴 수 있는 것처럼요.

마지막으로 저자들은 앞으로의 계획도 밝혔어요. BitNet을 더 발전시켜서 엄청나게 큰 언어모델도 누구나 쉽게 만들 수 있게 하는 게 목표래요. 그러려면 지금보다 훨씬 더 많은 데이터로 학습해야 할 거예요. 정말 멋진 비전이죠?

bitnet1.58에 대한 예전의 설명은 생략했음. 특붕이라면 다 알고있을테니까.
이번 bitnet 새 논문이 뭔지에 대해 정말 자세히 알고싶은 사람을 위한 설명글.
근데 bitnet용 새로운 하드웨어를 설계하는건 돈욕심때문인가 싶긴 함

고정닉 3

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2863	설문	시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는?	운영자	24/05/27	-	-
463615	일반	알트만이 입털었던 부분이 맞아가는 듯 [5]	컴퓨터비전	05.07	259	1
463613	일반	im-also-a-good-gpt2-chatbot 어디서 쓸수 있는거임	ㅇㅇ(59.16)	05.07	163	0
463612	일반	내가 also gpt2한테 질문한 조온나 마이너한 분야 [4]	컴퓨터비전	05.07	234	2
463611	일반	ㅌㅇㅈ ㅈㅂ 200ㅇㅊ [6]	포스트휴먼.	05.07	63	2
463610	일반	챗봇아레나 그냥 뻘소리로 "얄라리히"라고 쳤는데 [10]	월코존버	05.07	282	0
463609	일반	슬슬 간보는거보니깐	ㅇㅇ(115.139)	05.07	88	0
463607	일반	인공지능 걍 자연을 모방한거아니냐 [2]	ㅇㅇ(116.47)	05.07	114	0
463606	일반	also써보는중인데 뭔가다름	ㅇㅇ(14.53)	05.07	122	0
463605	일반	gpt2는 간보기 용도인가	ㅇㅇ(112.186)	05.07	65	0
463603	일반	약간 충격받은 also gpt-2 후기 [12]	컴퓨터비전	05.07	4399	17
463600	일반	니늘 GPT2어디서 쓰고 있냐? [2]	카탁프락T	05.07	193	0
463599	일반	gpt5가 슬슬 나오기 시작하네	ㅇㅇ(59.16)	05.07	156	0
463597	일반	also gpt 진짜 미쳤는데? [2]	ㅇㅇ	05.07	2575	12
463595	일반	also gpt2 코드 퀄리티가 다르네	깍쟁	05.07	180	2
463594	일반	gpt2는 gpt-2가 아니네 [1]	컴퓨터비전	05.07	164	0
463593	일반	진짜 궁금 [1]	특탁(112.160)	05.07	84	0
463592	일반	im-also-a-good-gpt2-chatbot 얘 뭐냐 시발 [2]	ㅇㅇ(110.145)	05.07	362	1
463591	일반	초지능님께 나를 사랑해주는 미소녀를 만들어달라고 [1]	ㅇㅇ(221.164)	05.07	45	0
463590	일반	근데 GPT2한테 모델명 물어보면 GPT4라고 답하네 [2]	월코존버	05.07	168	0
463588	일반	gpt2는 뭐냐? 로컬임?	noosphere	05.07	107	0
463587	정보/ 정보/뉴스	아레나) gpt2, gpt-4, 클로드3 사칙연산 테스트 결과 [10]	ㅇㅇ	05.07	2210	17
463586	일반	지렸다 also-gpt2한테 프로덕션레벨급 코드 [7]	초존도초	05.07	353	0
463585	일반	아래 시크릿 라마 저거 먼데?	ㅇㅇ(112.161)	05.07	67	0
463584	일반	ㅋㅋGPT2 작문 실력 확실히 늘어나긴했네 [3]	월코존버	05.07	2018	22
463583	일반	기득권 입장에서	특탁(112.160)	05.07	75	0
463582	일반	와 also 대박이네 [7]	적절한김대기(221.141)	05.07	412	0
463581	일반	써보고 싶은데 왜 안보임;; [1]	람냥	05.07	100	1
463580	일반	버핏 애플주9식 던진거 웃기노 [1]	ㅇㅇ(220.93)	05.07	167	0
463464	정보/ 정보/뉴스	GPT4 한국어 토큰 효율화, 2.36=>1.1 [10]	호감고닉유동	05.07	567	5
463579	정보/ 정보/뉴스	Secret Llama - WebGPU로 구동되는 Llama 3 구현체 [1]	니지카엘	05.07	153	1
463578	정보/ 정보/뉴스	Hello Who are you? [1]	초존도초	05.07	106	3
463577	일반	알트만 하는거보면 GPT5 시원찮을것같은데	비오는날의개구리	05.07	101	0
463576	일반	gpt5가 여름얘기 어디서 나온거임? [3]	ㅇㅇ(221.158)	05.07	130	0
463574	일반	gpt 새 모델 2개네	ㅇㅇ(211.59)	05.07	188	0
463571	일반	산수능력 테스트에서 gp2보다 also-gpt2가 더 나음 [1]	초존도초	05.07	249	0
463570	역노화	지금 AI기술은 너무 열약해서 더 발전해야지	아메바이든	05.07	96	0
463568	정보/ 정보/뉴스	"MS, 구글·오픈AI에 맞설 새 AI 모델 'MAI-1' 학습 중" [3]	lightvector	05.07	176	1
463567	일반	이새끼뭐냐?	ㅇㅇ(112.186)	05.07	157	0
463566	일반	gpt2 2개인데? [3]	ㅁㄴㅇㄹ	05.07	375	0
463565	일반	gpt2 vs Opus-0229 산수 능력	초존도초	05.07	145	0
463564	일반	비장애인이 장애인 혐오하는거 규제하듯이 AI도 규제해야지	아메바이든	05.07	57	0
463563	일반	내 외모 골격 완전히 바꾸는 기술 개발할때까지 AI규제 반대함 [4]	아메바이든	05.07	159	0
463561	일반	알트만쉑 챗봇아레나로 간보는거 킹받네 [1]	ㅇㅇ(218.52)	05.07	174	0
463560	일반	지금 기다릴만한 호재	ㅇㅇ(58.29)	05.07	55	0
463559	일반	Asi정렬할려면 결국에는	ㅇㅇ(58.29)	05.07	44	0
463558	일반	gpt2 다시 아레나 복귀 [6]	ㅇㅇ(59.17)	05.07	411	2
463557	일반	내가 진짜 빡치는게 뭔줄아냐?	ㅇㅇ	05.07	107	0
463556	일반	AI규제하는 사람들 죄다 기득권 유명인임. [6]	아메바이든	05.07	195	0
463555	일반	임마 이거 왜 이럼? 환각임? [5]	ㅇㅇ(163.239)	05.07	332	0
463554	일반	이제 다들 AI를 인정하고 투자해줬으면좋겠다	ㅇㅇ	05.07	89	0