디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 비트넷 재현 실험모바일에서 작성

oo(119.202) 2024.03.24 02:12:18
조회 3506 추천 31 댓글 21
														
0490f719b38161f720afd8b236ef203ed5bd6d9729397e

해외 개발자가 최근 나온 비트넷 코드 바탕으로 재현 실험을 진행해봤습니다.

15.5 M 크기의 Llama 모델 기준으로 일반적 학습과 비트넷 기반 학습을 진행했습니다.

결과는 모델 loss 격차가 꽤 있다는 것이었습니다. 저자는 이 정도 격차로는 차라리 2 bit QAT 하는 것이 더 좋을 것 같다고 평가 했습니다.

그리고 저자는 비트넷이 주는 이론적인 inference 성능을 끌어내려면 커스텀 칩이 필요한데 이는 막대한 개발비용을 필요로 한다고 지적했습니다. 또한 스케일링 법칙이 비트넷에 통한 다는 보장도 없기 때문에 비트넷이 NGMI(not going to make it, 아무래도 안 될 거야) 라고 말합니다.

사견: 다만, 실험이 15.5M 작은 스케일에서 이루어 졌고 비트넷 후속 FAQ에서는 loss 격차가 모델이 커지면서 감소한다고 주장한 부분도 고려해야 합니다. 그리고 재현 실험은 사용한 통상적인 warmup + CosineAnneal lr 스케줄을 사용했는데 비트넷 FAQ에서는 다소 특이한 2단계 lr 스케줄 + weight decay 을 사용해서 차이가 존재하는 부분이 있습니다. 더 큰 모델에 대한 실험을 통하여 loss 격차가 줄어드는지 FAQ에서 나온 lr 스케줄과 동일하게 맞추어 주는 부분이 더 검증되어야 할 것 같습니다.

https://huggingface.co/blog/joey00072/experiments-with-bitnet-1-5

 



자동등록방지

추천 비추천

31

고정닉 15

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
451392 정보/ 하루 만에 오픈소스 최고 성능 넘어...삼바노바, MoE 방식 모델 출시 [1] 니지카엘갤로그로 이동합니다. 03.31 1400 17
451161 정보/ 짐 켈러 : 반도체 물리적 한계는 극복 가능 [34] ㅇㅇ­갤로그로 이동합니다. 03.31 4517 27
451218 일반 sora 새영상 미쳤네 [17] ㅇㅇ갤로그로 이동합니다. 03.31 2718 22
451217 정보/ 기억은 DNA를 부수고 수리하면서 만들어진다.nature [16] ㅇㅇ(182.230) 03.31 2789 24
451208 정보/ 목재 잉크로 3D 프린팅된 목재 제품 [3] ㅇㅇ(182.230) 03.31 783 16
451207 정보/ 개인용 '투명 보호막', 70달러 미만부터 판매 시작 [9] ㅇㅇ(182.230) 03.31 1583 18
451199 정보/ 다리 6개 달린 쥐 배아 만들었다 [6] ㅇㅇ(182.230) 03.31 1070 21
451016 정보/ 달에 철도를 건설한다.darpa [17] ㅇㅇ(182.230) 03.30 3119 28
451051 정보/ KBS 짐 켈러 3/29일자 최신 인터뷰 [16] ㅇㅇ­갤로그로 이동합니다. 03.30 1885 20
451126 역노화 노화된 면역체계 젋게 만드는 법 찾았다 [23] ㅇㅇ갤로그로 이동합니다. 03.31 2072 27
451030 일반 로이터 Open AI 다음모델 내년초 출시 기사 수정되었음. [14] ㅇㅇ(121.128) 03.30 2963 21
451027 정보/ MS 코파일럿 AI를 위해서는 40TOPS 이상의 NPU가 필요 [1] ㅇㅇ(182.230) 03.30 1373 14
451026 일반 Gpt5 내년이라고?ㅋㅋㅋ [2] ㅇㅇ갤로그로 이동합니다. 03.30 2245 23
451004 일반 오픈AI, Dall-E 3 업데이트 [17] ㅇㅇ(121.128) 03.30 3448 34
450989 정보/ 코드명 스타게이트와 헬리온 관련 추가 정보 [10] 모브갤로그로 이동합니다. 03.30 2038 29
450969 일반 언어 모델에 수학 능력 기대하지 마라 [25] ㅇㅇ(59.8) 03.30 3923 50
450930 정보/ GPT5벌써 베타테스트하네 대기자받고있네 [7] ㅇㅇ(112.165) 03.30 670 11
450928 일반 비트넷 추가적인 재현 시도 [30] ㅇㅇ(141.223) 03.30 2613 48
450909 일반 전유물 사회는 절대 성공할수 없음. 역사가 그렇게 말함. [19] ㅇㅇ갤로그로 이동합니다. 03.30 1466 26
450793 일반 한때 수백억대 연봉 AI 연구원, "이제는 치킨집 사장이에요" [10] ㅇㅇ(211.200) 03.30 4154 72
450784 정보/ 아마존, 클로드 잡는 올림푸스 출격예정 [6] ㅇㅇ(61.108) 03.30 312 10
450759 일반 테슬라 옵티머스 라이브데모 연기됐네 ㅅㅂ ㅋㅋ ㅇㅇ(121.149) 03.30 937 20
450756 일반 딥마인드에서 기상예보 ai 만들었나보네 [3] ㅇㅇ갤로그로 이동합니다. 03.30 1137 22
450755 일반 니들은 놀라 자빠질것 언플하고 돈땡기는게 사기수법 아니냐 [17] ㅇㅇ(118.129) 03.30 2844 70
450714 정보/ 딥마인드 연구원 "다음 단어 예측으로도 충분" [9] ㅇㅇ갤로그로 이동합니다. 03.30 2190 37
450752 일반 진짜 지좆대로 AI 검열하는 기업 [15] ㅇㅇ갤로그로 이동합니다. 03.30 3324 76
450749 일반 알트만 생각은 이거 맞음? [4] ㅇㅇ(115.20) 03.30 1110 23
450746 일반 130조 프로젝트면 미친 결과물이 나오겠지? [1] ㅇㅇ(218.52) 03.30 898 22
450745 일반 과도기가 헬게이트겠네 [7] ㅇㅇ(121.131) 03.30 1456 21
450742 일반 마소는 agi를 확신 한다고 봐야지 [1] ㅇㅇ(211.59) 03.30 952 22
450736 일반 Agi까지 가는데 130조나 들여야함? [13] ㅇㅇ(219.254) 03.30 1312 18
450735 일반 개인적으로 무인 편의점은 [2] ㅇㅇ(125.191) 03.30 778 20
450721 정보/ 짐 켈러 최근 KBS다큐멘터리 출현해 한 말만 모아봄.mp4 [5] ㅇㅇ­갤로그로 이동합니다. 03.30 980 26
450719 일반 미니 하우스는 대체 언제나옴? [2] ㅇㅇ(121.152) 03.30 1112 22
450718 정보/ OAI 보이스엔진 실제 음성 vs 생성 음성 [22] ㅇㅇ­갤로그로 이동합니다. 03.30 2063 38
450712 정보/ 닉 보스트롬 최신 인터뷰 [3] ㅇㅇ갤로그로 이동합니다. 03.30 1154 21
450709 일반 사진작가인데 요즘 두렵다 [12] ㅇㅇ갤로그로 이동합니다. 03.30 1356 18
450698 정보/ 'OAI- 마소' 스타게이트'는 5단계, 현재 3단계 [11] ㅇㅇ(123.100) 03.30 1827 23
450697 일반 솔직히 알트만은 좀 의심스러움 [4] ㅇㅇ(175.199) 03.30 1468 18
450668 정보/ 또 한명의 연구원이 OAI를 떠났다. [15] ㅇㅇ(123.100) 03.30 3268 32
450661 일반 브록만아 추하다. [2] ㅇㅇ(123.100) 03.30 1808 22
450658 일반 경영학과로서 전유물론 자체를 이해못했었다 [29] ㅇㅇ갤로그로 이동합니다. 03.30 1654 41
450627 정보/ MS와 OpenAI, 1000억 달러 규모의 AI 슈퍼컴퓨터 계획 [17] ㅇㅇ(182.230) 03.30 2887 34
450626 일반 보이스엔진 요약 [6] ㅇㅇ(1.230) 03.30 2497 50
450608 정보/ OpenAI, 보이스 엔진 선공개 [13] 모브갤로그로 이동합니다. 03.30 2987 47
450590 일반 진짜 이런말 하기 싫긴한데 [18] ㅇㅇ갤로그로 이동합니다. 03.30 3534 52
450587 일반 통신 3사 저새끼들 ai만들면 전유물한다 [8] ㅇㅇ갤로그로 이동합니다. 03.30 303 10
450584 일반 OpenAI 새 트윗: ChatGPT 기능 추가 [21] 모브갤로그로 이동합니다. 03.30 2735 39
450578 정보/ 백악관 “공항서 AI 안면 인식 거부권 보장” [29] ㅇㅇ갤로그로 이동합니다. 03.30 1641 20
450577 일반 이걸로 선형주작하네 ㅋㅋㅋㅋㅋㅋㅋ [6] ㅇㅇ갤로그로 이동합니다. 03.30 1706 32
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2