디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 비트넷 재현 실험모바일에서 작성

oo(119.202) 2024.03.24 02:12:18
조회 3491 추천 31 댓글 21
														
0490f719b38161f720afd8b236ef203ed5bd6d9729397e

해외 개발자가 최근 나온 비트넷 코드 바탕으로 재현 실험을 진행해봤습니다.

15.5 M 크기의 Llama 모델 기준으로 일반적 학습과 비트넷 기반 학습을 진행했습니다.

결과는 모델 loss 격차가 꽤 있다는 것이었습니다. 저자는 이 정도 격차로는 차라리 2 bit QAT 하는 것이 더 좋을 것 같다고 평가 했습니다.

그리고 저자는 비트넷이 주는 이론적인 inference 성능을 끌어내려면 커스텀 칩이 필요한데 이는 막대한 개발비용을 필요로 한다고 지적했습니다. 또한 스케일링 법칙이 비트넷에 통한 다는 보장도 없기 때문에 비트넷이 NGMI(not going to make it, 아무래도 안 될 거야) 라고 말합니다.

사견: 다만, 실험이 15.5M 작은 스케일에서 이루어 졌고 비트넷 후속 FAQ에서는 loss 격차가 모델이 커지면서 감소한다고 주장한 부분도 고려해야 합니다. 그리고 재현 실험은 사용한 통상적인 warmup + CosineAnneal lr 스케줄을 사용했는데 비트넷 FAQ에서는 다소 특이한 2단계 lr 스케줄 + weight decay 을 사용해서 차이가 존재하는 부분이 있습니다. 더 큰 모델에 대한 실험을 통하여 loss 격차가 줄어드는지 FAQ에서 나온 lr 스케줄과 동일하게 맞추어 주는 부분이 더 검증되어야 할 것 같습니다.

https://huggingface.co/blog/joey00072/experiments-with-bitnet-1-5

 



자동등록방지

추천 비추천

31

고정닉 15

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2860 설문 경제관념 부족해서 돈 막 쓸 것 같은 스타는? 운영자 24/05/13 - -
457690 일반 역시 르쿤이형이냐 [12] ㅇㅇ(59.11) 04.19 1954 56
457641 정보 (오피셜) 라마3 곧 추가될 기능들 [15] ㅇㅇ(123.100) 04.19 2609 27
457620 일반 405B 짜리는 GPT-4 터보 걍 좆바르겠노 ㅋㅋ [8] ㅇㅇ(123.100) 04.19 2125 20
457615 일반 라마3 한국어로 쓰고 실망 ㄴㄴ [4] ㅇㅇ(123.100) 04.19 2192 19
457613 일반 챗봇아레나 라마3 성능 돌아버렸네 ㅋㅋㅋㅋㅋㅋㅋㅋ [6] ㅇㅇ(110.145) 04.19 2171 21
457608 정보 라마3 Chatbot arena 리더보드 순위 미쳤노ㅋㅋㅋ [4] ㅇㅇ(123.100) 04.19 1233 19
457522 정보 MS '대화하는 얼굴' VASA-1 작동 영상 [6] ㅇㅇ갤로그로 이동합니다. 04.19 1190 22
457509 정보 오늘 있던 Oai 강연 + 앞로 있을 3개 [12] ㅁㄴㅇㄹ갤로그로 이동합니다. 04.19 1844 23
457496 일반 라마3 400b 성능은 gpt-4보다 훨씬 높을수도 [14] ㅇㅇ(110.145) 04.19 1650 19
457481 정보 chagpt가 특정 단어를 반복하는 이유에 대한 기사가 나왔네 [17] ㅇㅇ갤로그로 이동합니다. 04.19 2267 24
457455 일반 라마3는 충분히 기뻐할만한 일 아님? [15] ㅇㅇ(211.44) 04.19 2337 46
457454 일반 라마 매력봐라 ㅅㅂㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [14] 아디라스갤로그로 이동합니다. 04.19 3383 33
457432 일반 라마3 아이폰에서 구동 성공 [15] rtOS갤로그로 이동합니다. 04.19 2601 23
457416 일반 라마4 떡밥 [3] 특술람갤로그로 이동합니다. 04.19 1033 22
457400 정보 스탠포드 피셜)) 분야별 ai발전 속도 인덱스 [19] lightvector갤로그로 이동합니다. 04.19 2570 27
457399 정보 메타 실시간 이미지 생성 발표 [9] 특술람갤로그로 이동합니다. 04.19 2714 30
457358 일반 라마3 동양인 혐오하네 ㅇㅇ [19] ㅇㅇ갤로그로 이동합니다. 04.19 3146 33
457357 일반 솔직히 라마 좃도 안기쁘면 개추 ㅋㅋ [20] ㅇㅇ(210.205) 04.19 2805 30
457344 AI창 수노3) 라마가 부른 노래 만들어봄 [8] ㅇㅇ갤로그로 이동합니다. 04.19 1224 17
457310 일반 라마3 70b 사용해볼수있게 허깅쳇에 떳다 [7] ㅇㅇ갤로그로 이동합니다. 04.19 2114 24
457304 정보 찬양하라ㅡMeta. [4] ㅇㅇ(123.100) 04.19 1840 28
457303 정보 라마3에 사용된 인간 주석데이터양 ㄷㄷㄷ [8] ㅇㅇ(123.100) 04.19 2369 20
457301 정보 라마2vs3 발전속도 보기.. [7] ㅇㅇ(123.100) 04.19 1963 21
457300 일반 Meta는 오픈소스 AGI를 위한 데이터센터 구축 중 [12] 모브갤로그로 이동합니다. 04.19 1368 23
457272 정보 오피셜) GPT4 API 사망 [6] ㅇㅇ(123.100) 04.19 3185 32
457260 일반 라마3 400b와 4터보 벤치 [8] ㅇㅇ(175.124) 04.19 1592 16
457254 일반 개념글 빨리 올려라 시발 ㅋㅋ [10] lightvector갤로그로 이동합니다. 04.19 1852 29
457232 일반 GPT4 초 멸망ㅋㅋㅋㅋ [2] ㅇㅇ(123.100) 04.19 2599 22
457213 정보 라마3 벤치마크 [16] ㅇㅇ(211.59) 04.19 1986 22
457172 일반 라마3 70b [5] 특술람갤로그로 이동합니다. 04.18 1742 28
457168 일반 르쿤햄 오늘도 호감 1스택 적립 [5] ㅇㅇ(218.158) 04.18 1362 27
457165 정보 라마3 발표 [15] 특술람갤로그로 이동합니다. 04.18 2698 34
457122 일반 국내는 솔직히 병신맞음 [4] ㅇㅇ(118.235) 04.18 1120 18
457091 정보 MS-오픈AI, EU의 합병 조사 피할 듯..."단순 투자로 결론" [2] ㅇㅇ(182.230) 04.18 952 17
457057 일반 [충격]세계 최초 뇌영상 기술 조작 논란 [28] xdxd333갤로그로 이동합니다. 04.18 2841 24
456979 일반 근데 진짜 빅이슈면 이미 해외에서부터 ㄹ들갑떨긴 함 [4] ㅇㅇ(115.139) 04.18 1024 22
456973 일반 념글 이거 존나웃기네 씨발 ㅋㅋㅋㅋㅋ [10] ㅇㅇ갤로그로 이동합니다. 04.18 3450 31
456946 정보 삼성전자, 업계 최고 속도 LPDDR5X D램 개발 [4] ㅇㅇ(182.230) 04.18 1882 24
456944 일반 싱글벙글 보스턴 다이나믹스 로봇 근황.gif [28] ㅇㅇ­갤로그로 이동합니다. 04.18 3059 29
456934 정보 피터 틸 "AI가 작가보다 수학 덕후들에게 '더 나쁠 것'" [18] 특술람갤로그로 이동합니다. 04.18 2860 26
456923 정보 닉보스트롬 인류미래연구소 문 닫음 [4] 특술람갤로그로 이동합니다. 04.18 1025 20
456922 정보 인텔, 세계 최대의 뉴로모픽 시스템 '할라 포인트' 구축 [9] ㅇㅇ(182.230) 04.18 1515 28
456913 정보 새로운 아틀라스 로봇에 대해 CEO와의 Q&A [11] ㅇㅇ갤로그로 이동합니다. 04.18 1768 23
456890 일반 얀 르쿤의 AI관련 의견에서 감안해야 하는 점은 [33] ㅇㅇ(218.48) 04.18 1744 30
456828 일반 뉴아틀라스 떳다(링크) [43] ㅇㅇ(121.168) 04.17 2674 30
456817 정보 Daniel Kokotajilo, OpenAI 퇴직 [6] ㅇㅇ(125.191) 04.17 1142 20
456805 정보 생성AI가 잡아낸 진단기록 오류, 영상의학과 전문의 못지 않다 [3] ㅇㅇ(182.230) 04.17 1184 22
456804 정보 "구글도 AI 슈퍼컴퓨터에 1000억달러 이상 투자할 것" [3] ㅇㅇ(182.230) 04.17 994 23
456803 정보 "AI 논문 표절 심각"…수백만명이 논문 작성에 생성 AI 활용 [5] ㅇㅇ(182.230) 04.17 1724 16
456800 정보 MS, UAE G42에 2조 투자로 이사회 합류..."중국 완전 차단" [2] ㅇㅇ(182.230) 04.17 950 16
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2