디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 1.58 비트넷 저자들 추가 발표

ㅇㅇ(123.100) 2024.03.21 01:03:03
조회 3293 추천 71 댓글 41
														

7cf3c028e2f206a26d81f6e140817568

https://github.com/microsoft/unilm/tree/master/bitnet


마이크로소프트 언어모델 관련 깃허브에 오늘 추가 자료 올라옴


The Era of 1-bit LLMs: Training Tips, Code and FAQ


그리 길지는 않아서 전체적으로 보고 왔음

7ff3c028e2f206a26d81f6e44786716c5a

저자들도 회의적인 반응들이 꽤 있어서 그랬는지,

논문에 'Believing is seeing.' 이라고 박아 놓음

(직접 보면 안 믿을 수 없을 것이다.)


어떻게 학습했는지와 학습 과정에 대한 보다 구체적인 자료, 하이퍼파라미터 등 공개하고

어떻게 파이토치로 구현하는지도 공개함

37beca25abc236a14e81d2b628f1756b624f4f

이번 보고서에서 공개한 그래프

저자들은 1.58 BitNet이 S자형 손실 곡선을 보여준다고 말함

7fee8275abc236a14e81d2b628f17269761562

그리고 이 그래프가 이 보고서의 핵심이라고 볼 수도 있는데,

모델 크기가 커지면 커질 수록 전체 정밀도 모델과 학습 손실 차이가 줄어드는 경향을 보여줌




아래는 저자들이 써놓은 FAQ


1. 삼항 {-1, 0, 1} 말고 딴건 왜 안씀?


{-1, 1} : 원래 BitNet b1(저자들의 이전 논문)에서 구현이었는데 성능이 삼항보다 딸렸음

{0, 1} : 최적화가 매우 불안정함

{-2, -1, 0, 1} or {-2, -1, 0, 1, 2}같이 추가적인 비트 사용 : 삼항 {-1, 0, 1}하고 별 차이 없어서 안씀


2. 훈련도 빨라짐?


현재 구현은 여전히 FP16/BF16에 있어서 실험에서 실제 속도 향상은 없음

하지만 대형 모델의 경우 가속화할 수 있는 상당한 기회가 있음


3. BitNet이 더 큰 모델에도 작동함?


"The Era of 1-bit LLMs" 논문에서 공개한 것처럼 완전 정밀도 LLM과 BitNet 1.58 사이의 간격이 모델 크기가 커짐에 따라 작아지는 것을 보여주는 명확한 추세가 있음


이는 BitNet이 더 큰 모델에 더욱 효과적이라는 것을 의미함


오히려 BitNet은 더 큰 모델 크기에서 더 나은 성능을 발휘함

1.58 비트 모델은 더 나은 일반화 기능을 제공하고 과적합이 덜 발생할 수 있음



그리고 아래에 파이토치 기반 구현 코드도 공개했는데, 되게 간단해서 금방 사람들이 실험해볼 듯


이번에도 여전히 저자들의 주장이기는 하나

저자들은 믿음이 굉장히 굳건해보인다.












자동등록방지

추천 비추천

71

고정닉 23

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
463605 일반 gpt2는 간보기 용도인가 ㅇㅇ(112.186) 05.07 65 0
463603 일반 약간 충격받은 also gpt-2 후기 [12] 컴퓨터비전갤로그로 이동합니다. 05.07 4399 17
463600 일반 니늘 GPT2어디서 쓰고 있냐? [2] 카탁프락T갤로그로 이동합니다. 05.07 193 0
463599 일반 gpt5가 슬슬 나오기 시작하네 ㅇㅇ(59.16) 05.07 156 0
463597 일반 also gpt 진짜 미쳤는데? [2] ㅇㅇ갤로그로 이동합니다. 05.07 2575 12
463595 일반 also gpt2 코드 퀄리티가 다르네 깍쟁갤로그로 이동합니다. 05.07 180 2
463594 일반 gpt2는 gpt-2가 아니네 [1] 컴퓨터비전갤로그로 이동합니다. 05.07 164 0
463593 일반 진짜 궁금 [1] 특탁(112.160) 05.07 84 0
463592 일반 im-also-a-good-gpt2-chatbot 얘 뭐냐 시발 [2] ㅇㅇ(110.145) 05.07 362 1
463591 일반 초지능님께 나를 사랑해주는 미소녀를 만들어달라고 [1] ㅇㅇ(221.164) 05.07 45 0
463590 일반 근데 GPT2한테 모델명 물어보면 GPT4라고 답하네 [2] 월코존버갤로그로 이동합니다. 05.07 168 0
463588 일반 gpt2는 뭐냐? 로컬임? noosphere갤로그로 이동합니다. 05.07 107 0
463587 정보/ 아레나) gpt2, gpt-4, 클로드3 사칙연산 테스트 결과 [10] ㅇㅇ갤로그로 이동합니다. 05.07 2210 17
463586 일반 지렸다 also-gpt2한테 프로덕션레벨급 코드 [7] 초존도초갤로그로 이동합니다. 05.07 353 0
463585 일반 아래 시크릿 라마 저거 먼데? ㅇㅇ(112.161) 05.07 67 0
463584 일반 ㅋㅋGPT2 작문 실력 확실히 늘어나긴했네 [3] 월코존버갤로그로 이동합니다. 05.07 2018 22
463583 일반 기득권 입장에서 특탁(112.160) 05.07 75 0
463582 일반 와 also 대박이네 [7] 적절한김대기(221.141) 05.07 412 0
463581 일반 써보고 싶은데 왜 안보임;; [1] 람냥갤로그로 이동합니다. 05.07 100 1
463580 일반 버핏 애플주9식 던진거 웃기노 [1] ㅇㅇ(220.93) 05.07 167 0
463464 정보/ GPT4 한국어 토큰 효율화, 2.36=>1.1 [10] 호감고닉유동갤로그로 이동합니다. 05.07 567 5
463579 정보/ Secret Llama - WebGPU로 구동되는 Llama 3 구현체 [1] 니지카엘갤로그로 이동합니다. 05.07 153 1
463578 정보/ Hello Who are you? [1] 초존도초갤로그로 이동합니다. 05.07 106 3
463577 일반 알트만 하는거보면 GPT5 시원찮을것같은데 비오는날의개구리갤로그로 이동합니다. 05.07 101 0
463576 일반 gpt5가 여름얘기 어디서 나온거임? [3] ㅇㅇ(221.158) 05.07 130 0
463574 일반 gpt 새 모델 2개네 ㅇㅇ(211.59) 05.07 188 0
463571 일반 산수능력 테스트에서 gp2보다 also-gpt2가 더 나음 [1] 초존도초갤로그로 이동합니다. 05.07 249 0
463570 역노화 지금 AI기술은 너무 열약해서 더 발전해야지 아메바이든갤로그로 이동합니다. 05.07 96 0
463568 정보/ "MS, 구글·오픈AI에 맞설 새 AI 모델 'MAI-1' 학습 중" [3] lightvector갤로그로 이동합니다. 05.07 176 1
463567 일반 이새끼뭐냐? ㅇㅇ(112.186) 05.07 157 0
463566 일반 gpt2 2개인데? [3] ㅁㄴㅇㄹ갤로그로 이동합니다. 05.07 375 0
463565 일반 gpt2 vs Opus-0229 산수 능력 초존도초갤로그로 이동합니다. 05.07 145 0
463564 일반 비장애인이 장애인 혐오하는거 규제하듯이 AI도 규제해야지 아메바이든갤로그로 이동합니다. 05.07 57 0
463563 일반 내 외모 골격 완전히 바꾸는 기술 개발할때까지 AI규제 반대함 [4] 아메바이든갤로그로 이동합니다. 05.07 159 0
463561 일반 알트만쉑 챗봇아레나로 간보는거 킹받네 [1] ㅇㅇ(218.52) 05.07 174 0
463560 일반 지금 기다릴만한 호재 ㅇㅇ(58.29) 05.07 55 0
463559 일반 Asi정렬할려면 결국에는 ㅇㅇ(58.29) 05.07 44 0
463558 일반 gpt2 다시 아레나 복귀 [6] ㅇㅇ(59.17) 05.07 411 2
463557 일반 내가 진짜 빡치는게 뭔줄아냐? ㅇㅇ갤로그로 이동합니다. 05.07 107 0
463556 일반 AI규제하는 사람들 죄다 기득권 유명인임. [6] 아메바이든갤로그로 이동합니다. 05.07 195 0
463555 일반 임마 이거 왜 이럼? 환각임? [5] ㅇㅇ(163.239) 05.07 332 0
463554 일반 이제 다들 AI를 인정하고 투자해줬으면좋겠다 ㅇㅇ갤로그로 이동합니다. 05.07 89 0
463553 일반 저거 카운트 다운 진짜야? [3] ㅇㅇ(210.113) 05.07 293 0
463551 일반 Gpt5 출시 한달남았다 [7] 헬스토끼갤로그로 이동합니다. 05.07 508 1
463550 일반 니미애플: 알트만 장난 그만쳐 [1] ㅇㅇ(119.77) 05.07 406 1
463548 토의 ASI 내지 AGI는 누가 정렬해? [1] Ad_Astra갤로그로 이동합니다. 05.07 106 0
463545 일반 진짜진짜진짜진짜진짜진짜진짜 큰거 오냐? Dazbee갤로그로 이동합니다. 05.07 178 0
463543 정보/ 일론 "인간지능 대부분 디지털 될 것…잔인한 AI 막아야" [2] lightvector갤로그로 이동합니다. 05.07 375 1
463542 일반 gpt로그인 없이도 쓸수 있게 해놨다고 했으면서 왜 정작 웹 들어가면 ㅇㅇ(14.42) 05.07 85 0
463541 일반 좆트만 개패고싶으면개추 ㅇㅇ(14.53) 05.07 187 10
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2