디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 비트넷 재현 실험모바일에서 작성

oo(119.202) 2024.03.24 02:12:18
조회 3507 추천 31 댓글 21
														
0490f719b38161f720afd8b236ef203ed5bd6d9729397e

해외 개발자가 최근 나온 비트넷 코드 바탕으로 재현 실험을 진행해봤습니다.

15.5 M 크기의 Llama 모델 기준으로 일반적 학습과 비트넷 기반 학습을 진행했습니다.

결과는 모델 loss 격차가 꽤 있다는 것이었습니다. 저자는 이 정도 격차로는 차라리 2 bit QAT 하는 것이 더 좋을 것 같다고 평가 했습니다.

그리고 저자는 비트넷이 주는 이론적인 inference 성능을 끌어내려면 커스텀 칩이 필요한데 이는 막대한 개발비용을 필요로 한다고 지적했습니다. 또한 스케일링 법칙이 비트넷에 통한 다는 보장도 없기 때문에 비트넷이 NGMI(not going to make it, 아무래도 안 될 거야) 라고 말합니다.

사견: 다만, 실험이 15.5M 작은 스케일에서 이루어 졌고 비트넷 후속 FAQ에서는 loss 격차가 모델이 커지면서 감소한다고 주장한 부분도 고려해야 합니다. 그리고 재현 실험은 사용한 통상적인 warmup + CosineAnneal lr 스케줄을 사용했는데 비트넷 FAQ에서는 다소 특이한 2단계 lr 스케줄 + weight decay 을 사용해서 차이가 존재하는 부분이 있습니다. 더 큰 모델에 대한 실험을 통하여 loss 격차가 줄어드는지 FAQ에서 나온 lr 스케줄과 동일하게 맞추어 주는 부분이 더 검증되어야 할 것 같습니다.

https://huggingface.co/blog/joey00072/experiments-with-bitnet-1-5

 



자동등록방지

추천 비추천

31

고정닉 15

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
461007 일반 오늘자 오픈AI 트윗 말장난 [16] 모브갤로그로 이동합니다. 04.30 3365 26
460981 일반 OpenAI 개발자 플랫폼 새로운 기능 추가 [15] ㅇㅇ(112.144) 04.30 3120 25
460951 일반 보스턴다이나믹스 신규영상 [19] ㅇㅇ(125.183) 04.30 2970 23
460872 일반 근데 왜 미국애들은 새벽에 뭐 발표함?? [23] lightvector갤로그로 이동합니다. 04.29 3193 31
460861 일반 속보) GPT 올해의 가장 큰 업데이트 발표 [13] ㅇㅇ갤로그로 이동합니다. 04.29 4169 27
460815 일반 응 gpt5 나와 이 병신들아 [21] ㅇㅇ갤로그로 이동합니다. 04.29 3120 33
460811 일반 오늘 그냥 잘꺼면 개추 ㅋㅋ [15] ㅇㅇ(58.29) 04.29 1744 43
460748 일반 내일 무조건 GPT-5 나오는 이유 5가지.jpg [19] ㅇㅇ(182.230) 04.29 3092 27
460726 정보/ 또 등장한 '소라'의 한계 지적..."영화 제작은 시기상조" [13] ㅇㅇ(182.230) 04.29 529 14
460686 정보/ 깃허브 개발자 "내일 큰 거 온다" [20] ㅇㅇ(125.191) 04.29 3231 26
460658 정보/ 제미니 울트라 1.5 [13] ㅇㅇ(125.191) 04.29 948 16
460650 정보/ 국내 직장인 셋 중 하나 "생성형 AI 10년 안에 내 업무 대체할 것" [13] ㅇㅇ(125.191) 04.29 2445 28
460611 정보/ 2024년 AI 스타트업을 위한 데이터 수집 전략 [3] ㅇㅇ(182.230) 04.29 1609 21
460626 일반 자본주의는 망해야 함 [24] ㅇㅇ(58.29) 04.29 1853 34
460621 일반 무어의 법칙 이번에는 진짜 끝났다!! 발전 좆됐다!!! [35] lightvector갤로그로 이동합니다. 04.29 3057 35
460600 정보/ Qwen1.5-110B : 알리바바의 오픈소스 LLM Qwen1.5 [4] ㅇㅇ(182.230) 04.29 740 21
460599 정보/ Meta Llama 3 발표후, 첫 일주일간 생긴 일 [2] ㅇㅇ(182.230) 04.29 1438 26
460583 정보/ Figure 60 Minutes 영상 [14] ㅇㅇ(125.191) 04.29 1114 16
460574 정보/ 중국의 AI 혁신으로 의사보다 두 배 빠른 속도로 식도암 병변 식별 [6] ㅇㅇ갤로그로 이동합니다. 04.29 850 17
460165 정보/ 터미네이터 감독 "AI가 날 대신할 수도…배우는 대체 못 해" [7] lightvector갤로그로 이동합니다. 04.27 1602 16
460448 정보/ 사람 음성 받아적는 AI도 '환각' 보여…"없는 말 지어내" [11] ㅇㅇ(182.230) 04.28 943 15
460400 일반 나도 한명 저격해도 되냐 ㅅㅂ [5] ㅇㅇ(14.53) 04.28 3028 30
460365 정보/ 르쿤이형 : 현재 LLM은 여전히 꽤 멍청. 인간수준 못넘을 것 [25] ㅇㅇ(119.77) 04.28 3189 41
460363 정보/ MS Copilot, 사용자 PC 파일 제어 기능 추가 [7] ㅇㅇ(119.77) 04.28 723 24
460334 일반 근데 진짜 념글처럼 ai겨울인거 맞지 않음? [31] ㅇㅇ(112.218) 04.28 2818 18
460332 일반 구글 방금 파이썬팀 해고 [39] ㅇㅇ(125.191) 04.28 3948 21
460316 일반 최근 AI 근황 요약 [33] ㅇㅇ(218.150) 04.28 4917 58
460315 일반 무뚝뚝한 안드로이드 메이드.manhwa [14] ㅇㅇ(125.241) 04.28 2171 39
460264 일반 데이비드 샤피로 "올해 1억개의 일자리를 파괴할 gpt-5 agi 기대" [18] ㅇㅇ(125.191) 04.28 2723 19
460262 일반 양놈들이 보는 'AI 인플루언서' 특 [9] ㅇㅇ(116.124) 04.28 2945 51
460245 일반 학벌이 뭐가 중요할까요 [36] 좋아해킨드갤로그로 이동합니다. 04.28 3029 29
460233 일반 이새끼들 대학타령 하고 있네 [11] ㅇㅇ(58.29) 04.28 1997 20
460201 정보/ 어도비, '파이어플라이 이미지 3' 출시...'포토샵'에 생성 AI 통합 [3] ㅇㅇ(182.230) 04.28 1234 15
460139 일반 클린 념글 보는 법 [8] SMN갤로그로 이동합니다. 04.27 1814 28
460091 정보/ OpenAI 소라 경쟁 Vidu 출시 [23] 선갤러(125.191) 04.27 2575 28
460089 일반 독일 재생에너지 50% 넘음 [20] ㅇㅇ(220.73) 04.27 1187 16
460088 정보/ 전 FDA 국장 "생명공학의 변곡점이 오고 있다" [23] 선갤러(125.191) 04.27 3394 35
460036 정보/ 애플, 오픈AI와 협상 재개...'시리'에 '챗GPT' 통합 추진할 듯 [12] ㅇㅇ(182.230) 04.27 607 13
460011 일반 국내연구진은 거른다면서 [48] ㅇㅇ(114.205) 04.27 3144 74
460002 역노화 피세틴 임상 2a상 시작 했습니다. [76] 좋아해킨드갤로그로 이동합니다. 04.27 3907 38
459997 일반 오픈 ai 지하실 상황 [5] ㅇㅇ(1.229) 04.27 4009 31
459992 일반 뒤에서 지랄 떨지 말고 맞다이로 gpt5 들어와 ㅇㅇ(110.46) 04.27 1857 32
459964 일반 AI 안전 및 보안위원회 명단 [4] ㅇㅇ(125.191) 04.26 964 13
459936 일반 죽는거에요???? [19] ㅇㅇ갤로그로 이동합니다. 04.26 4286 69
459930 정보/ 생생한 Sora 실사용 후기 [29] ㅇㅇ(119.77) 04.26 4053 40
459925 정보/ 모더나 ceo "3~5년 안에 대부분 질병 이해" [30] 특술람갤로그로 이동합니다. 04.26 3572 48
459884 정보/ Astribot S1 로봇 [2] ㅇㅇ(125.191) 04.26 201 12
459876 정보/ 딥마인드, 미세조정 없이 성능 개선하는 ‘다중샷 상황 내 학습’ 공개 [11] ㅇㅇ(182.230) 04.26 1912 26
459870 정보/ MS·구글, 클라우드 성장으로 실적 양호..."메타 같은 사태 피했다" [1] ㅇㅇ(182.230) 04.26 1229 17
459866 정보/ 글로벌 CIO "AI 투자 증가 96%, 2년내 수익률 입증 가능성 X" [2] ㅇㅇ(182.230) 04.26 1328 20
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2