디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] 1.58 비트넷 저자들 추가 발표

ㅇㅇ(123.100) 2024.03.21 01:03:03
조회 3271 추천 71 댓글 41
														

7cf3c028e2f206a26d81f6e140817568

https://github.com/microsoft/unilm/tree/master/bitnet


마이크로소프트 언어모델 관련 깃허브에 오늘 추가 자료 올라옴


The Era of 1-bit LLMs: Training Tips, Code and FAQ


그리 길지는 않아서 전체적으로 보고 왔음

7ff3c028e2f206a26d81f6e44786716c5a

저자들도 회의적인 반응들이 꽤 있어서 그랬는지,

논문에 'Believing is seeing.' 이라고 박아 놓음

(직접 보면 안 믿을 수 없을 것이다.)


어떻게 학습했는지와 학습 과정에 대한 보다 구체적인 자료, 하이퍼파라미터 등 공개하고

어떻게 파이토치로 구현하는지도 공개함

37beca25abc236a14e81d2b628f1756b624f4f

이번 보고서에서 공개한 그래프

저자들은 1.58 BitNet이 S자형 손실 곡선을 보여준다고 말함

7fee8275abc236a14e81d2b628f17269761562

그리고 이 그래프가 이 보고서의 핵심이라고 볼 수도 있는데,

모델 크기가 커지면 커질 수록 전체 정밀도 모델과 학습 손실 차이가 줄어드는 경향을 보여줌




아래는 저자들이 써놓은 FAQ


1. 삼항 {-1, 0, 1} 말고 딴건 왜 안씀?


{-1, 1} : 원래 BitNet b1(저자들의 이전 논문)에서 구현이었는데 성능이 삼항보다 딸렸음

{0, 1} : 최적화가 매우 불안정함

{-2, -1, 0, 1} or {-2, -1, 0, 1, 2}같이 추가적인 비트 사용 : 삼항 {-1, 0, 1}하고 별 차이 없어서 안씀


2. 훈련도 빨라짐?


현재 구현은 여전히 FP16/BF16에 있어서 실험에서 실제 속도 향상은 없음

하지만 대형 모델의 경우 가속화할 수 있는 상당한 기회가 있음


3. BitNet이 더 큰 모델에도 작동함?


"The Era of 1-bit LLMs" 논문에서 공개한 것처럼 완전 정밀도 LLM과 BitNet 1.58 사이의 간격이 모델 크기가 커짐에 따라 작아지는 것을 보여주는 명확한 추세가 있음


이는 BitNet이 더 큰 모델에 더욱 효과적이라는 것을 의미함


오히려 BitNet은 더 큰 모델 크기에서 더 나은 성능을 발휘함

1.58 비트 모델은 더 나은 일반화 기능을 제공하고 과적합이 덜 발생할 수 있음



그리고 아래에 파이토치 기반 구현 코드도 공개했는데, 되게 간단해서 금방 사람들이 실험해볼 듯


이번에도 여전히 저자들의 주장이기는 하나

저자들은 믿음이 굉장히 굳건해보인다.












추천 비추천

71

고정닉 23

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2853 설문 연인과 헤어지고 뒤끝 작렬할 것 같은 스타는? 운영자 24/04/22 - -
458231 정보 닉 보스트롬 "AI는 실존적 희망의 원천" [10] ㅇㅇ(125.191) 04.21 2664 31
458219 일반 얀르쿤 피셜 "오픈소스 하자고한건 맞는데 라마3 내가 직접만든건 아님" [22] ㅇㅇ(59.17) 04.21 3232 22
458194 정보 라마3 챗봇 아레나 근황.. [6] ㅇㅇ(123.100) 04.21 3278 23
458139 일반 이제 하다하다 야갤 유동 글을 믿네 [9] Samus갤로그로 이동합니다. 04.20 466 14
458112 정보 라마3 70b 초당 3000토큰 가능 [7] noosphere갤로그로 이동합니다. 04.20 2263 23
458089 정보 (AI겨울)주커버그는 AGI가 멀었다고 생각합니다 [26] ㅇㅇ(123.100) 04.20 3881 25
458068 일반 403.. 이게 무슨 숫자인지 아시나요? [9] ㅇㅇ(59.3) 04.20 2741 31
458049 정보 이너코스모스, 우울증 치료하는 뇌 임플란트 출시...간단한 수술이 장점 [12] ㅇㅇ(182.230) 04.20 796 23
458019 정보 젠슨 황: 머지않은 미래 적절가격에 휴머노이드 보급 가능 [42] noosphere갤로그로 이동합니다. 04.20 3183 26
457991 정보 한국이 파운데이션 모델 '0'을 기록한 이유는 [15] ㅇㅇ(182.230) 04.20 2363 25
457974 일반 르쿤햄) 라마3 성능의 비결 [33] ㅇㅇ(121.133) 04.20 2781 28
457963 정보 안드레 카파시의 라마3 평가 [11] ㅇㅇ(182.230) 04.20 2174 26
457928 일반 agi 은근슬쩍 내려치기 하는 놈들이 보이네 [27] ㅇㅇ(1.237) 04.20 2621 24
457897 일반 AGI가 코앞이 아닌거 같은 이유 [78] ㅇㅇ(1.234) 04.20 4064 34
457875 일반 르쿤게이도 라마3 기여했다 [8] ㅇㅇ(123.100) 04.20 1687 23
457850 일반 정치충은 막는게 맞음 [29] ㅇㅇ(106.101) 04.20 1618 29
457839 일반 르쿤이 메타 LLM팀 아님 [7] ㅇㅇ(125.191) 04.20 1493 20
457752 일반 한 남자의 어록 모음 [37] agi2024갤로그로 이동합니다. 04.19 3025 51
457748 일반 ???: ㅋㅋ 고작 이딴걸로 좋아하네 [13] agi2024갤로그로 이동합니다. 04.19 3080 23
457691 일반 이미 로펌에서 GPT-4 로 변론서 작성중이라는데 ㅋㅋㅋㅋㅋ [13] ㅇㅇ(124.49) 04.19 2648 24
457690 일반 역시 르쿤이형이냐 [12] ㅇㅇ(59.11) 04.19 1911 56
457641 정보 (오피셜) 라마3 곧 추가될 기능들 [15] ㅇㅇ(123.100) 04.19 2585 27
457620 일반 405B 짜리는 GPT-4 터보 걍 좆바르겠노 ㅋㅋ [8] ㅇㅇ(123.100) 04.19 2109 20
457615 일반 라마3 한국어로 쓰고 실망 ㄴㄴ [4] ㅇㅇ(123.100) 04.19 2145 19
457613 일반 챗봇아레나 라마3 성능 돌아버렸네 ㅋㅋㅋㅋㅋㅋㅋㅋ [6] ㅇㅇ(110.145) 04.19 2098 21
457608 정보 라마3 Chatbot arena 리더보드 순위 미쳤노ㅋㅋㅋ [4] ㅇㅇ(123.100) 04.19 1199 19
457522 정보 MS '대화하는 얼굴' VASA-1 작동 영상 [6] ㅇㅇ갤로그로 이동합니다. 04.19 1173 22
457509 정보 오늘 있던 Oai 강연 + 앞로 있을 3개 [12] ㅁㄴㅇㄹ갤로그로 이동합니다. 04.19 1830 22
457496 일반 라마3 400b 성능은 gpt-4보다 훨씬 높을수도 [14] ㅇㅇ(110.145) 04.19 1633 19
457481 정보 chagpt가 특정 단어를 반복하는 이유에 대한 기사가 나왔네 [17] ㅇㅇ갤로그로 이동합니다. 04.19 2202 24
457455 일반 라마3는 충분히 기뻐할만한 일 아님? [15] ㅇㅇ(211.44) 04.19 2300 46
457454 일반 라마 매력봐라 ㅅㅂㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [14] 아디라스갤로그로 이동합니다. 04.19 3344 33
457432 일반 라마3 아이폰에서 구동 성공 [15] rtOS갤로그로 이동합니다. 04.19 2493 23
457416 일반 라마4 떡밥 [3] 특술람갤로그로 이동합니다. 04.19 1011 22
457400 정보 스탠포드 피셜)) 분야별 ai발전 속도 인덱스 [19] lightvector갤로그로 이동합니다. 04.19 2535 27
457399 정보 메타 실시간 이미지 생성 발표 [9] 특술람갤로그로 이동합니다. 04.19 2684 30
457358 일반 라마3 동양인 혐오하네 ㅇㅇ [19] ㅇㅇ갤로그로 이동합니다. 04.19 3111 33
457357 일반 솔직히 라마 좃도 안기쁘면 개추 ㅋㅋ [20] ㅇㅇ(210.205) 04.19 2779 30
457344 AI창 수노3) 라마가 부른 노래 만들어봄 [8] ㅇㅇ갤로그로 이동합니다. 04.19 1202 17
457310 일반 라마3 70b 사용해볼수있게 허깅쳇에 떳다 [7] ㅇㅇ갤로그로 이동합니다. 04.19 2071 24
457304 정보 찬양하라ㅡMeta. [4] ㅇㅇ(123.100) 04.19 1829 28
457303 정보 라마3에 사용된 인간 주석데이터양 ㄷㄷㄷ [8] ㅇㅇ(123.100) 04.19 2342 20
457301 정보 라마2vs3 발전속도 보기.. [7] ㅇㅇ(123.100) 04.19 1951 21
457300 일반 Meta는 오픈소스 AGI를 위한 데이터센터 구축 중 [12] 모브갤로그로 이동합니다. 04.19 1345 23
457272 정보 오피셜) GPT4 API 사망 [6] ㅇㅇ(123.100) 04.19 3134 32
457260 일반 라마3 400b와 4터보 벤치 [8] ㅇㅇ(175.124) 04.19 1581 16
457254 일반 개념글 빨리 올려라 시발 ㅋㅋ [10] lightvector갤로그로 이동합니다. 04.19 1838 29
457232 일반 GPT4 초 멸망ㅋㅋㅋㅋ [2] ㅇㅇ(123.100) 04.19 2567 22
457213 정보 라마3 벤치마크 [16] ㅇㅇ(211.59) 04.19 1968 22
457172 일반 라마3 70b [5] 특술람갤로그로 이동합니다. 04.18 1729 28
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2