디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] 1.58 비트넷 저자들 추가 발표

ㅇㅇ(123.100) 2024.03.21 01:03:03
조회 3284 추천 71 댓글 41
														

7cf3c028e2f206a26d81f6e140817568

https://github.com/microsoft/unilm/tree/master/bitnet


마이크로소프트 언어모델 관련 깃허브에 오늘 추가 자료 올라옴


The Era of 1-bit LLMs: Training Tips, Code and FAQ


그리 길지는 않아서 전체적으로 보고 왔음

7ff3c028e2f206a26d81f6e44786716c5a

저자들도 회의적인 반응들이 꽤 있어서 그랬는지,

논문에 'Believing is seeing.' 이라고 박아 놓음

(직접 보면 안 믿을 수 없을 것이다.)


어떻게 학습했는지와 학습 과정에 대한 보다 구체적인 자료, 하이퍼파라미터 등 공개하고

어떻게 파이토치로 구현하는지도 공개함

37beca25abc236a14e81d2b628f1756b624f4f

이번 보고서에서 공개한 그래프

저자들은 1.58 BitNet이 S자형 손실 곡선을 보여준다고 말함

7fee8275abc236a14e81d2b628f17269761562

그리고 이 그래프가 이 보고서의 핵심이라고 볼 수도 있는데,

모델 크기가 커지면 커질 수록 전체 정밀도 모델과 학습 손실 차이가 줄어드는 경향을 보여줌




아래는 저자들이 써놓은 FAQ


1. 삼항 {-1, 0, 1} 말고 딴건 왜 안씀?


{-1, 1} : 원래 BitNet b1(저자들의 이전 논문)에서 구현이었는데 성능이 삼항보다 딸렸음

{0, 1} : 최적화가 매우 불안정함

{-2, -1, 0, 1} or {-2, -1, 0, 1, 2}같이 추가적인 비트 사용 : 삼항 {-1, 0, 1}하고 별 차이 없어서 안씀


2. 훈련도 빨라짐?


현재 구현은 여전히 FP16/BF16에 있어서 실험에서 실제 속도 향상은 없음

하지만 대형 모델의 경우 가속화할 수 있는 상당한 기회가 있음


3. BitNet이 더 큰 모델에도 작동함?


"The Era of 1-bit LLMs" 논문에서 공개한 것처럼 완전 정밀도 LLM과 BitNet 1.58 사이의 간격이 모델 크기가 커짐에 따라 작아지는 것을 보여주는 명확한 추세가 있음


이는 BitNet이 더 큰 모델에 더욱 효과적이라는 것을 의미함


오히려 BitNet은 더 큰 모델 크기에서 더 나은 성능을 발휘함

1.58 비트 모델은 더 나은 일반화 기능을 제공하고 과적합이 덜 발생할 수 있음



그리고 아래에 파이토치 기반 구현 코드도 공개했는데, 되게 간단해서 금방 사람들이 실험해볼 듯


이번에도 여전히 저자들의 주장이기는 하나

저자들은 믿음이 굉장히 굳건해보인다.












자동등록방지

추천 비추천

71

고정닉 23

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2858 설문 SNS로 싸우면 절대 안 질 것 같은 고집 있는 스타는? 운영자 24/05/06 - -
449553 일반 아무리 생각해도 오픈ai 스캠 느낌이 살짝씩 난다 [63] ㅇㅇ(125.184) 03.28 3973 81
449520 역노화 '회춘약' 개발 초읽기…"생쥐실험 성공" [21] ㅇㅇ(106.102) 03.28 3065 32
449486 정보 ai로 암진단... 정확도 90% [10] ㅂㄷ(118.235) 03.28 496 10
449472 정보 아마존 앤트로픽에 27억 5천만 달러 추가 투자 [14] ㅇㅇ(211.59) 03.28 1641 25
449462 정보 AI는 맥주 맛을 더 좋게 만드는 방법을 알려줄 수 있습니다 [25] ㅇㅇ갤로그로 이동합니다. 03.28 908 21
448995 정보 AI로 자간전증에 대한 망막 바이오마커 식별 [15] ㅇㅇ갤로그로 이동합니다. 03.27 2003 25
449080 정보 Claude 3 Opus, LMSYS 리더보드 GPT-4 제치고 1위 [16] 니지카엘갤로그로 이동합니다. 03.27 2792 25
449385 정보 "오픈AI 연봉이 130억"…저커버그, AI 인재 유출에 직접 나섰다 [16] ㅇㅇ(58.140) 03.27 2700 25
449377 정보 실리콘 밸리서 알트먼 비난 증가..."AI의 알렉산더 대왕 되려고 해" [19] ㅇㅇ(58.140) 03.27 2512 29
449371 일반 현재 메타 AI 연구원 대탈출 중 [37] ㅇㅇ(123.100) 03.27 3942 42
449303 정보 AI '종말'로 인해 영국에서 약 800만 개의 일자리가 사라질 수 있다 [13] 부패하는유전자!!!갤로그로 이동합니다. 03.27 2294 27
449347 일반 Ai 덕분에 10개국어 가능해진 백만 유튜버 근황 [9] ㅇㅇ(116.120) 03.27 3286 23
449305 역노화 연구원들은 도입된 완보동물 단백질이 인간 세포의 신진대사를 늦출 수 있음 [14] 부패하는유전자!!!갤로그로 이동합니다. 03.27 2372 31
449315 정보 채신논문) 어째서 새들은 그렇게 똑똑한가? [20] ㅇㅇ갤로그로 이동합니다. 03.27 3020 57
448975 정보 설문결과, 거의 절반이 AI로 직원 대체 목표 중 [14] ㅇㅇ(123.100) 03.26 2858 27
449166 정보 안드레이 카파시 "언어모델 운영체제를 통해 AGI로 가는 길" [13] ㅇㅇ(111.171) 03.27 2230 31
448985 일반 알트먼 느낌 존나 싸하긴하네 ㅋㅋㅋㅋ [7] 상한포도갤로그로 이동합니다. 03.26 1246 13
448858 일반 속보) 시작된 AI 레이스...... iOS 18 애플의 "혁신" [60] 물병나르는청년갤로그로 이동합니다. 03.26 5226 48
448855 일반 삼성증권 AGI 언급 ㄷㄷㄷ [34] 헤르푸갤로그로 이동합니다. 03.26 5394 39
448703 일반 gpt5 라마3 출시 루머 [37] ㅇㅇ(211.59) 03.26 5044 29
448621 일반 "아, 아 마이크 테스트" [41] ㅇㅇ(1.230) 03.26 4934 45
448612 정보 소라 영상 현.직자들이 만든 영상 [35] ㅇㅇ갤로그로 이동합니다. 03.26 6269 31
448596 일반 소라 현.직자들이랑 작업한 후기 떴네 [19] ㅇㅇ갤로그로 이동합니다. 03.26 4088 35
448243 일반 척추분리증 : 줄기세포 치료 정보 [5] ㅇㅇ(221.154) 03.25 1276 31
448140 일반 특이점 용어 창시자 근황 [35] ㅇㅇ(123.100) 03.25 5312 55
448133 정보 Google AI는 곧 사람의 기침을 이용해 질병을 진단할 수 있습니다. [36] ㅇㅇ갤로그로 이동합니다. 03.25 2777 25
448130 일반 트랜스포머 재밌는 특성(딥러닝갤 펌) [25] 솔.이☆갤로그로 이동합니다. 03.25 3613 35
448095 정보 펌)DenseFormer: 레이어 수 적은 모델로 뛰어난 성능 달성 [12] ㅇㅇ­갤로그로 이동합니다. 03.25 1688 31
448043 AI창 특이점갤러리 새끼들아 [12] ㅇㅇ갤로그로 이동합니다. 03.24 2874 25
448042 일반 슬슬 '진짜로' 불안하면 개추... [30] ㅇㅇ갤로그로 이동합니다. 03.24 6036 42
447984 일반 스압)음악계 종사자들이 AI에 대해 생각보다 호의적일 수 있는 이유 [44] ㅇㅇ갤로그로 이동합니다. 03.24 3850 46
447983 일반 오픈ai 연구원 입털었다!! [26] ㅇㅇ갤로그로 이동합니다. 03.24 4051 33
447973 일반 2박 3일 동안 클로드3 오푸스로 폭딸 친후기.feat. 가격 [28] 얼리딸답터갤로그로 이동합니다. 03.24 3970 33
447959 일반 그림쟁이들이 ai한테 가장 피해본놈들이지 [17] ㅇㅇ(58.29) 03.24 2507 43
447952 정보 매우 간단하게 LLM 집컴으로 돌리는 방법 (LM Studio) [4] ㅇㅇ(121.151) 03.24 2374 23
447878 일반 와 ㅅㅂ 짱개 ai랑 노는데 재밌노ㅋㅋㅋㅋㅋㅋ [18] ㅇㅇ(175.125) 03.24 3522 34
447705 일반 사이버렉카 수준.. [14] ㅇㅇ(1.239) 03.24 1947 32
447656 일반 이제는 토큰이 아니라 바이트의 세상을 열어야함 [10] ㅇㅇ(125.134) 03.24 3272 29
447567 AI창 선형충의 승리 [15] ㅇㅇ(182.209) 03.24 4475 41
447490 일반 결국 미국정부에게 반독점소송 쳐맞는 애플 [14] ㅇㅇ(223.39) 03.24 2636 27
447467 정보 (근거있음) ai가 버블일 수 있는 합리적인 이유.txt [89] ㅇㅇ(106.102) 03.24 5618 51
447458 정보 AI챗봇 출시 첫날 1000여명 수천 회 상담 [16] ㅇㅇ갤로그로 이동합니다. 03.24 2496 26
447412 일반 비트넷 재현 실험 [21] oo(119.202) 03.24 3491 31
447365 일반 Stability AI CEO 추노한거 돈때문만은 아니네 [4] ㅇㅇ갤로그로 이동합니다. 03.24 1521 24
447282 정보 얼마나 다급하면…AI 경쟁 뒤처진 애플, 구글 이어 中 바이두에 SOS [22] 니지카엘갤로그로 이동합니다. 03.23 2600 27
447267 일반 밑에 올라온 haiper ai 로 만든 영상들 가져와봄 [8] 따뜨갤로그로 이동합니다. 03.23 1548 20
447232 일반 새삼스럽지만 인생 존나 재미없지 않냐? [9] ㅇㅇ(119.204) 03.23 342 10
447228 일반 무료로 2초분량의 영상을 제작해주는 Haiper AI [3] ㅇㅇ(211.226) 03.23 1669 20
447184 정보 뉴럴링크 새 영상 가져왔다.nintendo [26] ㅇㅇ(180.228) 03.23 4216 50
447154 AI창 NAI)극후방 멍멍이 아코 [16] Samus갤로그로 이동합니다. 03.23 811 12
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2