디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] bitnet 새논문 클로드로 일반인용 설명 해왔음

ㅇㅇ(211.46) 2024.03.21 02:20:43
조회 327 추천 14 댓글 8
														

이 논문에서는 기존의 언어모델과 1-bit 모델들을 개선한 BitNet b1.58이라는 새로운 모델을 소개하고 있어요.

먼저 기존의 언어모델들은 보통 32비트나 16비트의 부동소수점을 사용해요. 부동소수점은 십진수를 이진수로 그대로 표현한 것이라고 보면 되는데, 굉장히 정확하지만 그만큼 데이터 크기가 커요. 반면 BitNet b1.58은 겨우 1.58비트만 써서 모델을 표현해요.

어떻게 그게 가능한 걸까요? 바로 {-1, 0, 1}이라는 세 가지 값만 쓰는 거에요. -1은 음수, 0은 0, 1은 양수를 나타내죠. 이 세 가지만 쓰면 모든 수를 표현할 순 없지만, 언어모델에 필요한 정보는 충분히 담을 수 있대요. 마치 10, 20, 50원짜리 동전만 가지고도 물건을 충분히 살 수 있는 것처럼요.

기존에는 1-bit 모델도 있었어요. 이건 {-1, 1} 두 가지 값만 쓰는 건데, BitNet b1과 비교했을 때는 성능이 좀 떨어졌대요. 특히 모델 크기가 작을수록 그 차이가 컸다고 해요. 물론 {0, 1}처럼 0과 양수만 쓰는 것도 해봤는데, 이건 학습이 잘 안 돼서 금방 포기했대요.

그 밖에도 {-2, -1, 0, 1, 2} 이렇게 좀 더 다양한 숫자를 쓰는 것도 시도해봤어요. -2나 2는 비트 연산으로 쉽게 구현할 수 있거든요. 근데 {-1, 0, 1} 세 가지만 써도 충분히 잘 되길래, 저자는 왜 괜히 복잡하게 하나 싶었나 봐요. 이건 마치 필요 이상으로 많은 종류의 동전을 만드는 것과 비슷하죠.

흥미로운 점은 BitNet b1.58의 성능이 모델 크기가 커질수록 더 좋아진다는 거에요. 작은 모델에서는 기존 방식이랑 별 차이가 없는데, 모델이 커지면 그 격차가 줄어든대요. 이는 마치 큰 금액을 동전으로 낼 때 그 위력이 발휘되는 것과 비슷해 보여요.

이처럼 BitNet b1.58은 기존 모델들의 장점은 그대로 가져오면서, 단점은 보완한 셈이에요. 앞으로는 더더욱 큰 언어모델도 쉽게 만들 수 있게 될 것 같아요. 

이 논문에서는 BitNet b1.58을 학습시킬 때 사용한 여러 가지 트릭들도 소개하고 있어요.

먼저 Loss Curve라는 걸 봤더니 S자 모양으로 생겼대요. 보통은 점점 낮아지는 게 정상인데 말이죠. 이게 의미하는 건, 중간 결과만 보고 성능을 예측하기 힘들다는 거예요. 마치 시험 공부를 할 때, 초반에는 큰 진전이 없다가 막판에 성적이 확 오르는 것과 비슷해요.

그리고 Learning Rate라는 것도 조절했어요. 이건 공부의 속도를 조절하는 것과 같아요. BitNet b1.58은 기존 모델보다 높은 Learning Rate에서도 안정적이래요. 공부를 빨리해도 흔들리지 않는 모범생 같은 거죠. 게다가 중간에 속도를 좀 줄이니까 오히려 성능이 더 올랐대요.

Weight Decay라는 기술도 썼어요. 이건 마치 습관처럼 굳어진 지식을 서서히 잊게 하는 것과 같아요. 근데 BitNet에서는 중반 이후에 이걸 끄는 게 더 좋더라고요. 처음에는 유연하게 학습하다가, 나중에는 확실히 아는 것에 집중하는 셈이죠.

논문에서는 이런 기술들 덕분에 BitNet b1.58이 기존 모델들보다 더 빨리, 더 안정적으로 학습할 수 있었다고 해요. 마치 공부 잘하는 비결을 터득한 학생 같아 보여요.

아, 그리고 실험 결과에 대해서도 좀 더 자세히 알려줬어요. 모델 크기별로 성능을 비교해 봤더니, 역시 크기가 클수록 BitNet이 기존 모델을 따라잡더라고요. 가장 큰 3B 모델에서는 성능이 거의 같았대요. 물론 실전에서는 훨씬 더 큰 모델을 쓸 거예요.

논문에서는 BitNet의 성능을 더 끌어올리기 위해 Activation과 KV cache라는 것들에 대해서도 실험했어요.

Activation은 모델 내부에서 정보가 전달될 때 거치는 일종의 관문 같은 거예요. 이걸 8비트로 줄이니까 성능이 많이 떨어지더라고요. 그래서 그 중에서도 중요한 것들은 8비트로 놔두고, 나머지는 4비트로 줄였대요. 마치 반 학생들 중에 특별히 도움이 필요한 친구들은 좀 더 신경 쓰는 것과 비슷해요.

KV cache는 모델이 이전에 학습한 내용을 저장해두는 곳이에요. 여기에 들어있는 정보는 4비트로 압축해도 아무런 문제가 없었대요. 모델이 공부한 내용을 압축해서 저장해둔다고 생각하면 되겠네요.

또 한 가지 흥미로운 점은, 실험에 사용된 하드웨어예요. 논문에서는 BitNet을 학습시킬 때 특별히 고안된 하드웨어를 사용하지는 않았어요. 하지만 BitNet은 그런 특수한 하드웨어로 최적화하기 아주 좋대요. 마치 일반 운동장에서도 잘 뛰는 선수를 좋은 운동장에서 더 훈련시키는 것처럼요.

그리고 앞으로는 학습 속도도 더 빨라질 거래요. 지금은 BitNet을 학습시킬 때 보통 컴퓨터를 썼지만, 앞으로는 전용 하드웨어를 쓰면 훨씬 빨라질 수 있대요. 마치 페라리를 타면 훨씬 빨리 달릴 수 있는 것처럼요.


마지막으로 저자들은 앞으로의 계획도 밝혔어요. BitNet을 더 발전시켜서 엄청나게 큰 언어모델도 누구나 쉽게 만들 수 있게 하는 게 목표래요. 그러려면 지금보다 훨씬 더 많은 데이터로 학습해야 할 거예요. 정말 멋진 비전이죠?

bitnet1.58에 대한 예전의 설명은 생략했음. 특붕이라면 다 알고있을테니까.
이번 bitnet 새 논문이 뭔지에 대해 정말 자세히 알고싶은 사람을 위한 설명글.
근데 bitnet용 새로운 하드웨어를 설계하는건 돈욕심때문인가 싶긴 함

자동등록방지

추천 비추천

14

고정닉 3

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
463615 일반 알트만이 입털었던 부분이 맞아가는 듯 [5] 컴퓨터비전갤로그로 이동합니다. 05.07 259 1
463613 일반 im-also-a-good-gpt2-chatbot 어디서 쓸수 있는거임 ㅇㅇ(59.16) 05.07 163 0
463612 일반 내가 also gpt2한테 질문한 조온나 마이너한 분야 [4] 컴퓨터비전갤로그로 이동합니다. 05.07 234 2
463611 일반 ㅌㅇㅈ ㅈㅂ 200ㅇㅊ [6] 포스트휴먼.갤로그로 이동합니다. 05.07 63 2
463610 일반 챗봇아레나 그냥 뻘소리로 "얄라리히"라고 쳤는데 [10] 월코존버갤로그로 이동합니다. 05.07 282 0
463609 일반 슬슬 간보는거보니깐 ㅇㅇ(115.139) 05.07 88 0
463607 일반 인공지능 걍 자연을 모방한거아니냐 [2] ㅇㅇ(116.47) 05.07 114 0
463606 일반 also써보는중인데 뭔가다름 ㅇㅇ(14.53) 05.07 122 0
463605 일반 gpt2는 간보기 용도인가 ㅇㅇ(112.186) 05.07 65 0
463603 일반 약간 충격받은 also gpt-2 후기 [12] 컴퓨터비전갤로그로 이동합니다. 05.07 4399 17
463600 일반 니늘 GPT2어디서 쓰고 있냐? [2] 카탁프락T갤로그로 이동합니다. 05.07 193 0
463599 일반 gpt5가 슬슬 나오기 시작하네 ㅇㅇ(59.16) 05.07 156 0
463597 일반 also gpt 진짜 미쳤는데? [2] ㅇㅇ갤로그로 이동합니다. 05.07 2575 12
463595 일반 also gpt2 코드 퀄리티가 다르네 깍쟁갤로그로 이동합니다. 05.07 180 2
463594 일반 gpt2는 gpt-2가 아니네 [1] 컴퓨터비전갤로그로 이동합니다. 05.07 164 0
463593 일반 진짜 궁금 [1] 특탁(112.160) 05.07 84 0
463592 일반 im-also-a-good-gpt2-chatbot 얘 뭐냐 시발 [2] ㅇㅇ(110.145) 05.07 362 1
463591 일반 초지능님께 나를 사랑해주는 미소녀를 만들어달라고 [1] ㅇㅇ(221.164) 05.07 45 0
463590 일반 근데 GPT2한테 모델명 물어보면 GPT4라고 답하네 [2] 월코존버갤로그로 이동합니다. 05.07 168 0
463588 일반 gpt2는 뭐냐? 로컬임? noosphere갤로그로 이동합니다. 05.07 107 0
463587 정보/ 아레나) gpt2, gpt-4, 클로드3 사칙연산 테스트 결과 [10] ㅇㅇ갤로그로 이동합니다. 05.07 2210 17
463586 일반 지렸다 also-gpt2한테 프로덕션레벨급 코드 [7] 초존도초갤로그로 이동합니다. 05.07 353 0
463585 일반 아래 시크릿 라마 저거 먼데? ㅇㅇ(112.161) 05.07 67 0
463584 일반 ㅋㅋGPT2 작문 실력 확실히 늘어나긴했네 [3] 월코존버갤로그로 이동합니다. 05.07 2018 22
463583 일반 기득권 입장에서 특탁(112.160) 05.07 75 0
463582 일반 와 also 대박이네 [7] 적절한김대기(221.141) 05.07 412 0
463581 일반 써보고 싶은데 왜 안보임;; [1] 람냥갤로그로 이동합니다. 05.07 100 1
463580 일반 버핏 애플주9식 던진거 웃기노 [1] ㅇㅇ(220.93) 05.07 167 0
463464 정보/ GPT4 한국어 토큰 효율화, 2.36=>1.1 [10] 호감고닉유동갤로그로 이동합니다. 05.07 567 5
463579 정보/ Secret Llama - WebGPU로 구동되는 Llama 3 구현체 [1] 니지카엘갤로그로 이동합니다. 05.07 153 1
463578 정보/ Hello Who are you? [1] 초존도초갤로그로 이동합니다. 05.07 106 3
463577 일반 알트만 하는거보면 GPT5 시원찮을것같은데 비오는날의개구리갤로그로 이동합니다. 05.07 101 0
463576 일반 gpt5가 여름얘기 어디서 나온거임? [3] ㅇㅇ(221.158) 05.07 130 0
463574 일반 gpt 새 모델 2개네 ㅇㅇ(211.59) 05.07 188 0
463571 일반 산수능력 테스트에서 gp2보다 also-gpt2가 더 나음 [1] 초존도초갤로그로 이동합니다. 05.07 249 0
463570 역노화 지금 AI기술은 너무 열약해서 더 발전해야지 아메바이든갤로그로 이동합니다. 05.07 96 0
463568 정보/ "MS, 구글·오픈AI에 맞설 새 AI 모델 'MAI-1' 학습 중" [3] lightvector갤로그로 이동합니다. 05.07 176 1
463567 일반 이새끼뭐냐? ㅇㅇ(112.186) 05.07 157 0
463566 일반 gpt2 2개인데? [3] ㅁㄴㅇㄹ갤로그로 이동합니다. 05.07 375 0
463565 일반 gpt2 vs Opus-0229 산수 능력 초존도초갤로그로 이동합니다. 05.07 145 0
463564 일반 비장애인이 장애인 혐오하는거 규제하듯이 AI도 규제해야지 아메바이든갤로그로 이동합니다. 05.07 57 0
463563 일반 내 외모 골격 완전히 바꾸는 기술 개발할때까지 AI규제 반대함 [4] 아메바이든갤로그로 이동합니다. 05.07 159 0
463561 일반 알트만쉑 챗봇아레나로 간보는거 킹받네 [1] ㅇㅇ(218.52) 05.07 174 0
463560 일반 지금 기다릴만한 호재 ㅇㅇ(58.29) 05.07 55 0
463559 일반 Asi정렬할려면 결국에는 ㅇㅇ(58.29) 05.07 44 0
463558 일반 gpt2 다시 아레나 복귀 [6] ㅇㅇ(59.17) 05.07 411 2
463557 일반 내가 진짜 빡치는게 뭔줄아냐? ㅇㅇ갤로그로 이동합니다. 05.07 107 0
463556 일반 AI규제하는 사람들 죄다 기득권 유명인임. [6] 아메바이든갤로그로 이동합니다. 05.07 195 0
463555 일반 임마 이거 왜 이럼? 환각임? [5] ㅇㅇ(163.239) 05.07 332 0
463554 일반 이제 다들 AI를 인정하고 투자해줬으면좋겠다 ㅇㅇ갤로그로 이동합니다. 05.07 89 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2