디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 1.58 비트넷 저자들 추가 발표

ㅇㅇ(123.100) 2024.03.21 01:03:03
조회 3292 추천 71 댓글 41
														

7cf3c028e2f206a26d81f6e140817568

https://github.com/microsoft/unilm/tree/master/bitnet


마이크로소프트 언어모델 관련 깃허브에 오늘 추가 자료 올라옴


The Era of 1-bit LLMs: Training Tips, Code and FAQ


그리 길지는 않아서 전체적으로 보고 왔음

7ff3c028e2f206a26d81f6e44786716c5a

저자들도 회의적인 반응들이 꽤 있어서 그랬는지,

논문에 'Believing is seeing.' 이라고 박아 놓음

(직접 보면 안 믿을 수 없을 것이다.)


어떻게 학습했는지와 학습 과정에 대한 보다 구체적인 자료, 하이퍼파라미터 등 공개하고

어떻게 파이토치로 구현하는지도 공개함

37beca25abc236a14e81d2b628f1756b624f4f

이번 보고서에서 공개한 그래프

저자들은 1.58 BitNet이 S자형 손실 곡선을 보여준다고 말함

7fee8275abc236a14e81d2b628f17269761562

그리고 이 그래프가 이 보고서의 핵심이라고 볼 수도 있는데,

모델 크기가 커지면 커질 수록 전체 정밀도 모델과 학습 손실 차이가 줄어드는 경향을 보여줌




아래는 저자들이 써놓은 FAQ


1. 삼항 {-1, 0, 1} 말고 딴건 왜 안씀?


{-1, 1} : 원래 BitNet b1(저자들의 이전 논문)에서 구현이었는데 성능이 삼항보다 딸렸음

{0, 1} : 최적화가 매우 불안정함

{-2, -1, 0, 1} or {-2, -1, 0, 1, 2}같이 추가적인 비트 사용 : 삼항 {-1, 0, 1}하고 별 차이 없어서 안씀


2. 훈련도 빨라짐?


현재 구현은 여전히 FP16/BF16에 있어서 실험에서 실제 속도 향상은 없음

하지만 대형 모델의 경우 가속화할 수 있는 상당한 기회가 있음


3. BitNet이 더 큰 모델에도 작동함?


"The Era of 1-bit LLMs" 논문에서 공개한 것처럼 완전 정밀도 LLM과 BitNet 1.58 사이의 간격이 모델 크기가 커짐에 따라 작아지는 것을 보여주는 명확한 추세가 있음


이는 BitNet이 더 큰 모델에 더욱 효과적이라는 것을 의미함


오히려 BitNet은 더 큰 모델 크기에서 더 나은 성능을 발휘함

1.58 비트 모델은 더 나은 일반화 기능을 제공하고 과적합이 덜 발생할 수 있음



그리고 아래에 파이토치 기반 구현 코드도 공개했는데, 되게 간단해서 금방 사람들이 실험해볼 듯


이번에도 여전히 저자들의 주장이기는 하나

저자들은 믿음이 굉장히 굳건해보인다.












자동등록방지

추천 비추천

71

고정닉 23

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
450384 일반 [르쿤] AGI 오려면 10년은 족히 걸린다 [12] ㅇㅇ(218.50) 03.29 2444 39
450329 일반 법조계 ai로 빨리 대체되어야함 전관예우? 지랄한다 [24] ㅇㅇ(121.170) 03.29 1915 58
450300 일반 특갤 그래프 그려봤음 [13] ㅇㅇ(175.200) 03.29 1949 70
450217 일반 바이든, 모든 국가기관에 AI 최고 책임자를 임명하라 명령 [18] 슈퍼130클럽갤로그로 이동합니다. 03.29 2508 35
450206 일반 밭갈이새끼들 꺼져라 좀 [14] ㅇㅇ갤로그로 이동합니다. 03.29 1738 56
450165 일반 AI 최전선 연구원들이 자꾸 트윗 찌라시 올리는 이유 [8] ㅇㅇ(119.206) 03.29 2731 56
450083 일반 현재 정말 위험해지고 있다는 AI 발달 근황 [9] ㅇㅇ(222.112) 03.29 1949 25
450049 일반 얀르쿤이 맞았네 그럼 [3] ㅇㅇ(175.124) 03.29 1636 42
450044 일반 오픈ai 연구원 "10년 후면 재귀개선 가능" [36] ㅇㅇ(119.206) 03.29 3714 53
450018 일반 이번에 언급된 oai이사 래리 서머스에 대해 알아보자 [25] ㅇㅇ(147.47) 03.29 1495 35
449987 정보/ 그록 1.5 요약 [8] ㅇㅇ(123.100) 03.29 1632 22
449986 정보/ 그록 1.5 발표 [11] ㅇㅇ갤로그로 이동합니다. 03.29 1479 24
449960 일반 차단글 내용 공개 [16] ㅇㅇ갤로그로 이동합니다. 03.29 1531 29
449945 일반 oai 이사회 멤버"ai가 거의 모든 형태의 노동을 대체할것" [25] ㅇㅇ(211.59) 03.29 2773 34
449943 일반 ㅋㅋㅋ 차단질 얼마나 심하게 했으면 [34] ㅇㅇ(112.170) 03.29 2006 29
449893 일반 아래에 있는 뇌 손상 장기기억 어쩌구를 오독하는 사람들이 좀 있어서 씀. [25] ㅇㅇ(1.245) 03.29 2154 27
449891 정보/ 최고 오픈소스 DBRX 후기 [7] ㅇㅇ(123.100) 03.29 1851 28
449883 정보/ 21세기에 부활한 범선, 윈드윙 [9] ㅇㅇ(182.230) 03.29 2087 28
449879 정보/ 기존의 디퓨전 모델보다 30배 빠른 이미지 생성 기술 [9] ㅇㅇ(182.230) 03.28 532 10
449877 정보/ 오픈소스 중 최고 성능 LLM 모델, DBRX 발표 [7] lightvector갤로그로 이동합니다. 03.28 1906 31
449874 일반 얘야~ 존경하는 사람이 누구니? [3] ㅇㅇ갤로그로 이동합니다. 03.28 1339 21
449872 정보/ 최초의 프로덕션 규모 Mamba, Jamba 공개 [12] ㅇㅇ(123.100) 03.28 1491 34
449860 일반 안전벨트 매세요 죽지 마세요 내년은 어메이징할 것 [17] ㅇㅇ(49.142) 03.28 2680 57
449847 정보/ 노력이 아무의미 없어지는 것은 인류는 이미 경험했었다 [11] ㅇㅇ(169.150) 03.28 1943 48
449831 정보/ 안드레이 카파시 비트넷 언급 [8] ㅇㅇ(123.100) 03.28 1586 29
449825 일반 클로바X 성능 지리네; [41] ㅇㅇ(112.153) 03.28 3361 91
449811 정보/ 인텔, "MS의 Copilot AI가 곧 PC에서 로컬로 실행될 것" [10] 니지카엘갤로그로 이동합니다. 03.28 2093 27
449800 일반 2055년 GPT-48 공개... [24] ㅇㅇ(211.200) 03.28 3078 102
449658 정보/ 채신논문) 대규모 언어 모델에서 언어와 사고 분리하기 (2) [9] ㅇㅇ갤로그로 이동합니다. 03.28 1529 30
449641 정보/ 채신논문) 대규모 언어 모델에서 언어와 사고 분리하기 (1) [3] ㅇㅇ갤로그로 이동합니다. 03.28 1936 38
449617 일반 모르면 걍 좀 여물고 살아 [13] 샤카갤로그로 이동합니다. 03.28 2811 55
449575 일반 오늘자 엔비디아, 메타 뉴스. [6] ㅇㅇ(61.105) 03.28 2577 27
449560 일반 그짝갤에서 온애들은 걍 티가남 [11] ㅇㅇ(14.53) 03.28 1906 50
449553 일반 아무리 생각해도 오픈ai 스캠 느낌이 살짝씩 난다 [63] ㅇㅇ(125.184) 03.28 3995 81
449520 역노화 '회춘약' 개발 초읽기…"생쥐실험 성공" [21] ㅇㅇ(106.102) 03.28 3158 32
449486 정보/ ai로 암진단... 정확도 90% [10] ㅂㄷ(118.235) 03.28 501 10
449472 정보/ 아마존 앤트로픽에 27억 5천만 달러 추가 투자 [14] ㅇㅇ(211.59) 03.28 1648 25
449462 정보/ AI는 맥주 맛을 더 좋게 만드는 방법을 알려줄 수 있습니다 [25] ㅇㅇ갤로그로 이동합니다. 03.28 915 21
448995 정보/ AI로 자간전증에 대한 망막 바이오마커 식별 [15] ㅇㅇ갤로그로 이동합니다. 03.27 2003 25
449080 정보/ Claude 3 Opus, LMSYS 리더보드 GPT-4 제치고 1위 [16] 니지카엘갤로그로 이동합니다. 03.27 2820 25
449385 정보/ "오픈AI 연봉이 130억"…저커버그, AI 인재 유출에 직접 나섰다 [16] ㅇㅇ(58.140) 03.27 2720 25
449377 정보/ 실리콘 밸리서 알트먼 비난 증가..."AI의 알렉산더 대왕 되려고 해" [19] ㅇㅇ(58.140) 03.27 2515 29
449371 일반 현재 메타 AI 연구원 대탈출 중 [37] ㅇㅇ(123.100) 03.27 3952 42
449303 정보/ AI '종말'로 인해 영국에서 약 800만 개의 일자리가 사라질 수 있다 [13] 부패하는유전자!!!갤로그로 이동합니다. 03.27 2300 27
449347 일반 Ai 덕분에 10개국어 가능해진 백만 유튜버 근황 [9] ㅇㅇ(116.120) 03.27 3307 23
449305 역노화 연구원들은 도입된 완보동물 단백질이 인간 세포의 신진대사를 늦출 수 있음 [14] 부패하는유전자!!!갤로그로 이동합니다. 03.27 2410 31
449315 정보/ 채신논문) 어째서 새들은 그렇게 똑똑한가? [20] ㅇㅇ갤로그로 이동합니다. 03.27 3047 57
448975 정보/ 설문결과, 거의 절반이 AI로 직원 대체 목표 중 [14] ㅇㅇ(123.100) 03.26 2869 27
449166 정보/ 안드레이 카파시 "언어모델 운영체제를 통해 AGI로 가는 길" [13] ㅇㅇ(111.171) 03.27 2242 31
448985 일반 알트먼 느낌 존나 싸하긴하네 ㅋㅋㅋㅋ [7] 상한포도갤로그로 이동합니다. 03.26 1259 13
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2