디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 비트넷 재현 실험모바일에서 작성

oo(119.202) 2024.03.24 02:12:18
조회 3485 추천 31 댓글 21
														
0490f719b38161f720afd8b236ef203ed5bd6d9729397e

해외 개발자가 최근 나온 비트넷 코드 바탕으로 재현 실험을 진행해봤습니다.

15.5 M 크기의 Llama 모델 기준으로 일반적 학습과 비트넷 기반 학습을 진행했습니다.

결과는 모델 loss 격차가 꽤 있다는 것이었습니다. 저자는 이 정도 격차로는 차라리 2 bit QAT 하는 것이 더 좋을 것 같다고 평가 했습니다.

그리고 저자는 비트넷이 주는 이론적인 inference 성능을 끌어내려면 커스텀 칩이 필요한데 이는 막대한 개발비용을 필요로 한다고 지적했습니다. 또한 스케일링 법칙이 비트넷에 통한 다는 보장도 없기 때문에 비트넷이 NGMI(not going to make it, 아무래도 안 될 거야) 라고 말합니다.

사견: 다만, 실험이 15.5M 작은 스케일에서 이루어 졌고 비트넷 후속 FAQ에서는 loss 격차가 모델이 커지면서 감소한다고 주장한 부분도 고려해야 합니다. 그리고 재현 실험은 사용한 통상적인 warmup + CosineAnneal lr 스케줄을 사용했는데 비트넷 FAQ에서는 다소 특이한 2단계 lr 스케줄 + weight decay 을 사용해서 차이가 존재하는 부분이 있습니다. 더 큰 모델에 대한 실험을 통하여 loss 격차가 줄어드는지 FAQ에서 나온 lr 스케줄과 동일하게 맞추어 주는 부분이 더 검증되어야 할 것 같습니다.

https://huggingface.co/blog/joey00072/experiments-with-bitnet-1-5

 



자동등록방지

추천 비추천

31

고정닉 15

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2856 설문 주위 눈치 안 보고(어쩌면 눈치 없이) MZ식 '직설 화법' 날릴 것 같은 스타는? 운영자 24/04/29 - -
453528 일반 알트만 피셜 과도기 기간 2주라네 [41] ㅇㅇ갤로그로 이동합니다. 04.07 4375 41
453492 일반 역노화 실험 내년부터 시작한다는듯 [27] ㅇㅇ(112.168) 04.07 4426 39
453485 일반 전 테슬라 연구원"fsd 차기 버전은 인간과 소통할 수 있는 agi 버전 [14] ㅇㅇ(211.59) 04.07 1762 16
453484 일반 oai 연구원"영상 생성은 모든 것을 시뮬레이션 하여 agi로 이어질것" [28] ㅇㅇ(211.59) 04.07 3295 32
453475 정보 "화산지대 암석 균열 속 열 흐름이 생명 기원 물질 생성 촉진" [3] ㅇㅇ(182.230) 04.07 1609 20
453460 일반 테슬라 FSD 주행거리 10억마일 돌파 [12] ㅇㅇ갤로그로 이동합니다. 04.07 1705 23
453458 일반 샘알트먼 & 사티나 나텔라 인터뷰 영상 [6] ㅇㅇ(211.107) 04.07 2149 29
453448 일반 싹다구속시켜.씨발.feel the agi.씹새끼들.꽉잡아라.노동시켜.노동 [34] 약중독고앵이갤로그로 이동합니다. 04.07 4167 93
453434 역노화 알츠하이머 치료제, 집에서 맞으며 관리하는 시대 열린다 [12] ㅇㅇ갤로그로 이동합니다. 04.07 1316 14
453431 일반 게임오바네 [13] ㅇㅇ갤로그로 이동합니다. 04.07 3773 59
453409 정보 알트먼, '챗GPT 전용 기기' 제조 위해 1.4조 모금 중 [15] ㅇㅇ(182.230) 04.06 2817 36
453377 일반 특이점으로 본 조1선붕당의 이해 [20] et갤로그로 이동합니다. 04.06 2361 63
453184 정보 "빅뱅 10억년 후, 우주의 시간은 '5배' 느렸다" [13] ㅇㅇ(182.230) 04.06 3061 25
453180 정보 람다, 'H100' GPU 담보로 6500억 대출 받아 [12] ㅇㅇ(182.230) 04.06 1868 23
453110 일반 아니 시발 이왜진? 작곡가들 쵸--비상!!!!!! [36] ㅇㅇ(222.118) 04.05 5543 44
452887 정보 염색체 말단 '텔로미어' 메커니즘 규명…"항암 치료 전략에 도움" [24] ㅇㅇ(182.230) 04.05 3483 23
452990 일반 인간 중위 데이터과학자를 능가하는 ai [17] 특술람갤로그로 이동합니다. 04.05 3511 28
452935 일반 "어이 샘! 오늘 트위터 근들갑 차례는 너라고!" [27] ㅇㅇ갤로그로 이동합니다. 04.05 3643 40
452927 일반 AI 일상화에 7100억원 투입···AI 혁명으로 한국 구조적 위기 극복 [33] Varian■Wrynn갤로그로 이동합니다. 04.05 3075 25
452894 정보 SKT, OAI 미세조정 서비스 이용해 큰 효과 [10] ㅇㅇ(123.100) 04.05 1957 17
452889 정보 인간 뇌 모방한 '뉴로모픽 신경망', 컴퓨팅 난제 해결했다 [9] ㅇㅇ(182.230) 04.05 2119 22
452884 정보 욱한 마음 누르는 뇌 원리 찾았다…'감정 조절' 치료 가능할까 [10] ㅇㅇ(182.230) 04.05 2409 23
452876 정보 Cohere, 강력한 오픈소스 LLM 공개(한국어 떡상) [8] ㅇㅇ(118.235) 04.05 2324 24
452868 정보 KAIST, 소비 전력 15배 줄이는 뉴로모픽 반도체 메모리 소자 개발 [3] ㅇㅇ(182.230) 04.05 299 10
452855 일반 중력 너머 우주서…인류 구할 ‘신약 개발 상용화’ 첫발 [31] ㅇㅇ갤로그로 이동합니다. 04.05 2220 25
452754 일반 나 이상한게 보여.. [29] ㅇㅇ(1.244) 04.04 4741 31
452727 정보 오픈ai가 투자한 자율주행 개발 회사가 운영을 중단함 [22] ㅇㅇ(211.59) 04.04 3636 22
452596 일반 美 연구진 “챗GPT4, 임상 추론에서 의사보다 뛰어난 능력 보여” [61] ㅇㅇ(1.239) 04.04 3572 21
452509 정보 마소 기록상 가장 신뢰할 수 있는 논리적 큐비트를 시연 [17] ㅇㅇ갤로그로 이동합니다. 04.03 3407 23
452500 정보 Stable Audio 2.0 발표 [20] ㅇㅇ(125.191) 04.03 3215 24
452470 정보 삼성전자, 오픈AI 진영 합류 결정… AI 반도체 ‘드림팀’ 꾸린다 [54] ㅇㅇ(211.59) 04.03 4539 45
452260 정보 로건GPT, 구글 제미니팀 입사 [5] ㅇㅇ(123.100) 04.03 2982 22
452246 정보 Layer-Pruning & QLoRA를 활용한 모델 경량화 [3] ㅇㅇ(182.230) 04.03 1311 18
452199 정보 레딧 펌) 1.58비트 3진법 LLM 언어모델 오픈소스 공개 [12] ㅇㅇ갤로그로 이동합니다. 04.02 2645 19
452169 정보 "2년 내 LLM 학습 데이터 고갈... AI 발전 중단될 것" [41] ㅇㅇ(182.230) 04.02 4978 28
452168 정보 구글, LLM 답변을 검색으로 확인하는 'SAFE' 개발 [7] ㅇㅇ(182.230) 04.02 1716 18
452167 정보 로봇 경찰견, 사람 대신 총 맞아..."인명 피해 방지" [23] ㅇㅇ(182.230) 04.02 2414 23
452163 정보 아마존, LLM '올림푸스' 올여름 출시... 매개변수는 예상 미만 [6] ㅇㅇ(182.230) 04.02 1381 17
452162 정보 오픈 소스 ‘미스트랄 7B v0.2’ 출시..."라마 2 능가" [3] ㅇㅇ(182.230) 04.02 1202 17
452155 정보 애플, 화면 맥락을 보고 이해할 수 있는 AI 개발 [8] ㅇㅇ(182.230) 04.02 2307 19
452114 일반 특갤이 openAI 지지하는 갤인 이유 [39] ㅇㅇ(175.206) 04.02 3115 45
452094 일반 ??? : ai 작곡으로 유행시킨거 하나라도 갖고와라 [28] ㅇㅇ(223.39) 04.02 3965 33
452024 정보 뇌를 모방한 AI 알고리즘을 찾아서, Hopfield 네트워크 [11] ㅇㅇ(182.230) 04.02 1978 23
452018 정보 IBM의 최신 뉴로모픽 칩 NorthPole [7] ㅇㅇ(182.230) 04.02 1622 27
451975 정보 MIT, LLM 속 지식 저장위치 찾아내는 방법 발견, 환각문제 개선가능 [18] 니지카엘갤로그로 이동합니다. 04.02 2266 23
451963 일반 근데 이미 본 떡밥이여도 굉장히 치명적인데? [4] ㅇㅇ(220.93) 04.02 1683 17
451923 토의 특이점을 위해서는 기술발전은 체감되지 못해야한다 [69] ㅇㅇ(1.230) 04.02 3982 66
451905 정보 기존 광섬유를 활용하여 450만배 빨라진 데이터 전송 성공 [38] 은바다갤로그로 이동합니다. 04.02 2984 22
451888 일반 작곡가 김형석 "suno 로 만든곡이 공모전 1위" ㄷㄷ [28] ㅇㅇ갤로그로 이동합니다. 04.02 3470 28
451881 일반 진짜 특갤 정보차이 너무 심한데 [25] ㅇㅇ갤로그로 이동합니다. 04.02 3836 32
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2