디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 비트넷 재현 실험모바일에서 작성

oo(119.202) 2024.03.24 02:12:18
조회 3482 추천 31 댓글 21
														
0490f719b38161f720afd8b236ef203ed5bd6d9729397e

해외 개발자가 최근 나온 비트넷 코드 바탕으로 재현 실험을 진행해봤습니다.

15.5 M 크기의 Llama 모델 기준으로 일반적 학습과 비트넷 기반 학습을 진행했습니다.

결과는 모델 loss 격차가 꽤 있다는 것이었습니다. 저자는 이 정도 격차로는 차라리 2 bit QAT 하는 것이 더 좋을 것 같다고 평가 했습니다.

그리고 저자는 비트넷이 주는 이론적인 inference 성능을 끌어내려면 커스텀 칩이 필요한데 이는 막대한 개발비용을 필요로 한다고 지적했습니다. 또한 스케일링 법칙이 비트넷에 통한 다는 보장도 없기 때문에 비트넷이 NGMI(not going to make it, 아무래도 안 될 거야) 라고 말합니다.

사견: 다만, 실험이 15.5M 작은 스케일에서 이루어 졌고 비트넷 후속 FAQ에서는 loss 격차가 모델이 커지면서 감소한다고 주장한 부분도 고려해야 합니다. 그리고 재현 실험은 사용한 통상적인 warmup + CosineAnneal lr 스케줄을 사용했는데 비트넷 FAQ에서는 다소 특이한 2단계 lr 스케줄 + weight decay 을 사용해서 차이가 존재하는 부분이 있습니다. 더 큰 모델에 대한 실험을 통하여 loss 격차가 줄어드는지 FAQ에서 나온 lr 스케줄과 동일하게 맞추어 주는 부분이 더 검증되어야 할 것 같습니다.

https://huggingface.co/blog/joey00072/experiments-with-bitnet-1-5

 



추천 비추천

31

고정닉 15

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2853 설문 연인과 헤어지고 뒤끝 작렬할 것 같은 스타는? 운영자 24/04/22 - -
459603 정보 "애플, 수요 부족으로 비전 프로 생산 조기 중단" [28] ㅇㅇ(182.230) 04.25 2273 23
459575 정보 미드저니 ceo "향후 12개월은 실시간 3d 비디오" [9] 특술람갤로그로 이동합니다. 04.25 2096 28
459556 일반 OpenAI 4월 29일 GPT4 업그레이드 가능성 [19] 모브갤로그로 이동합니다. 04.25 2632 19
459547 일반 특갤사이클 존나 웃기다니까 [6] ㅇㅇ(106.102) 04.25 1884 49
459519 일반 스탠포드 병신이 비밀이라 했던거 [19] ㅇㅇ(119.77) 04.25 2391 21
459493 일반 알트만 씨발놈 소식은 gpt5 공개될때까지 임시 언급금지 때리면 안됨? [10] ㅇㅇ(118.33) 04.25 2293 54
459489 정보 AI 모델에서 "그것"은 데이터셋이다. [7] ㅇㅇ(61.73) 04.25 1651 24
459484 일반 이거 ㅈㄴ웃기네 [19] 헬스토끼갤로그로 이동합니다. 04.25 2345 23
459478 일반 클로드 오늘 어마어마한 업뎃함 [10] ㅇㅇ(115.138) 04.25 625 10
459429 정보 플라톤 무덤 위치 미스터리, AI로 밝혀냈다 [29] ㅇㅇ갤로그로 이동합니다. 04.25 2715 34
459224 정보 상상할 수 있는 최악의 질문을 생성한 대가로 보상을 받는 '독성 AI' [16] ㅇㅇ갤로그로 이동합니다. 04.24 1421 20
459428 정보 모더나와 OpenAI가 협력하여 생명을 구하는 치료법 개발중 [10] ㅇㅇ(211.59) 04.25 1589 24
459454 정보 데이터셋이 전부라는 OAI 증언 [12] ㅇㅇ(119.77) 04.25 2120 26
459345 정보 일론 머스크 "옵티머스 로봇, 내년에 판매 시작" [28] 니지카엘갤로그로 이동합니다. 04.24 2421 28
459453 일반 open ai에 첫 h200 도착 [27] ㅇㅇ(175.124) 04.25 1868 30
459391 정보 다리오 아모데이 "무한 데이터 생성 가능" [9] ㅇㅇ(125.191) 04.24 845 12
459370 일반 지금 OpenAI가 출시 전 준비하는 건 맞는 듯 [14] 모브갤로그로 이동합니다. 04.24 2218 24
459245 일반 챗봇아레나 라마3 소식: 계속 순위가 오름; [22] ㅇㅇ(110.145) 04.24 2372 24
459203 정보 기억에 남을 순간, 시간이 '느리게' 느껴진다 [14] ㅇㅇ(182.230) 04.24 2930 29
459195 정보 OpenAI 블로그 새 글: 아동 안전 [4] 모브갤로그로 이동합니다. 04.24 882 19
459187 정보 아마존, 75만 대 이상의 로봇을 배치해 10만 명의 인력 대체 [10] 니지카엘갤로그로 이동합니다. 04.23 2768 27
459176 일반 GPT 토큰 5억 개 학습 후 얻은 교훈들 [21] ㅇㅇ(221.157) 04.23 3453 31
459059 정보 엔비디아, 10시간 만에 '알파폴드' 훈련 완료하는 '스케일폴드' 공개 [14] ㅇㅇ(182.230) 04.23 3102 33
459058 정보 세계 최초 AI 생성 유전자 편집기 ‘오픈크리스퍼-1’ 등장 [11] ㅇㅇ(182.230) 04.23 2503 27
459057 정보 중국 손절한 UAE, 미국과 잇달아 협업...MS 이어 퀄컴과 파트너십 [5] ㅇㅇ(182.230) 04.23 938 24
459053 일반 하사비스, 소라는 넘사벽이다 인정 [3] ㅇㅇ(218.147) 04.23 1408 26
459050 정보 MS, 삼성·LG·SK·하이닉스 대표 등과 5월 회동...파트너십 구축 [4] ㅇㅇ(182.230) 04.23 1390 28
459049 일반 갤에 올라왔던 유아의 언어 습득과 LLM 관련... [12] ㅇㅇ(1.245) 04.23 966 25
459028 정보 '한줌 흙으로'...친환경 '인간 퇴비장' 미국서 확산 [13] ㅇㅇ(182.230) 04.23 1153 18
458964 정보 Microsoft, Phi-3 발표 [18] ㅇㅇ(175.124) 04.23 2890 31
458899 정보 Meta, 퀘스트os 오픈소스 [15] ㅇㅇ(123.100) 04.23 1605 25
458401 정보 개인별 커스터마이징 가능한 "암백신" 개발중 [16] noosphere갤로그로 이동합니다. 04.21 2677 27
458785 일반 왜 '특이점이 온다'를 서점에서 팔죠..? [13] 떼껄룩해적단갤로그로 이동합니다. 04.22 3632 37
458759 일반 “K팝 이끌려 선택한 한국行, 하고 싶던 연구 맘껏” 뇌의 심장 제어 메 [8] 천재까마귀갤로그로 이동합니다. 04.22 1707 22
458758 정보 저커버그 "AI 학습 데이터보다 중요한 것은 피드백 루프" [4] ㅇㅇ(182.230) 04.22 1194 18
458703 일반 골빈해커 피셜 LLM의 미친 발전속도.jpg [10] lightvector갤로그로 이동합니다. 04.22 569 10
458659 정보 무스타파 술레이만, 인류를 위한 AI 발전 억제 주장 [9] 모브갤로그로 이동합니다. 04.22 590 19
458630 일반 선갤, 앰생몰이 거르고 인생 ㅈㄴ 고달픈 이유 [50] ㅇㅇ(125.133) 04.22 3037 32
458628 정보 ollama 포스트 : 라마3은 그렇게 검열 심하지 않은 편 [9] ㅇㅇ­갤로그로 이동합니다. 04.22 1361 17
458627 일반 FFF 저 시발련은 전략 바꿈 [9] ㅇㅇ(123.100) 04.22 421 11
458583 일반 (루머) GPT5는 5~10배 강하며, 기존 벤치마크 무의미 [30] ㅇㅇ(123.100) 04.22 3945 31
458384 정보 힌튼 "뇌를 여전히 이해하지 못할 가능성" [24] ㅇㅇ(121.132) 04.21 3610 25
458424 정보 요슈아 벤지오 인터뷰 요약 [3] ㅇㅇ(220.83) 04.21 1496 22
458428 정보 주커버그 인터뷰 - Llama 3, 100억달러 모델을 오픈소싱한 이유 [13] 니지카엘갤로그로 이동합니다. 04.21 2378 27
458521 정보 中 AGI 도약 위한 하이브리드 광자 AI 칩 개발 [27] ㅇㅇ갤로그로 이동합니다. 04.22 1543 20
458518 정보 구글, 아마존 등, 조용히 AI 기대치를 낮추는 중 [7] ㅇㅇ(123.100) 04.22 2711 18
458383 일반 인공지능 찬양하는 노래 하나 만들어봤음 [6] ㅇㅇ(220.118) 04.21 1394 26
458365 일반 짤 하나 건졌다 [8] ㅇㅇ(1.11) 04.21 1928 26
458344 AI창 NAI)후방 경찰관 개허접 아코 [8] Samus갤로그로 이동합니다. 04.21 1857 28
458262 정보 영국 작가협회 "생성 AI로 번역가 1/3 실직...40%는 소득 감소" [18] ㅇㅇ(182.230) 04.21 2466 26
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2