디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 비트넷 재현 실험모바일에서 작성

oo(119.202) 2024.03.24 02:12:18
조회 3487 추천 31 댓글 21
														
0490f719b38161f720afd8b236ef203ed5bd6d9729397e

해외 개발자가 최근 나온 비트넷 코드 바탕으로 재현 실험을 진행해봤습니다.

15.5 M 크기의 Llama 모델 기준으로 일반적 학습과 비트넷 기반 학습을 진행했습니다.

결과는 모델 loss 격차가 꽤 있다는 것이었습니다. 저자는 이 정도 격차로는 차라리 2 bit QAT 하는 것이 더 좋을 것 같다고 평가 했습니다.

그리고 저자는 비트넷이 주는 이론적인 inference 성능을 끌어내려면 커스텀 칩이 필요한데 이는 막대한 개발비용을 필요로 한다고 지적했습니다. 또한 스케일링 법칙이 비트넷에 통한 다는 보장도 없기 때문에 비트넷이 NGMI(not going to make it, 아무래도 안 될 거야) 라고 말합니다.

사견: 다만, 실험이 15.5M 작은 스케일에서 이루어 졌고 비트넷 후속 FAQ에서는 loss 격차가 모델이 커지면서 감소한다고 주장한 부분도 고려해야 합니다. 그리고 재현 실험은 사용한 통상적인 warmup + CosineAnneal lr 스케줄을 사용했는데 비트넷 FAQ에서는 다소 특이한 2단계 lr 스케줄 + weight decay 을 사용해서 차이가 존재하는 부분이 있습니다. 더 큰 모델에 대한 실험을 통하여 loss 격차가 줄어드는지 FAQ에서 나온 lr 스케줄과 동일하게 맞추어 주는 부분이 더 검증되어야 할 것 같습니다.

https://huggingface.co/blog/joey00072/experiments-with-bitnet-1-5

 



자동등록방지

추천 비추천

31

고정닉 15

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2856 설문 주위 눈치 안 보고(어쩌면 눈치 없이) MZ식 '직설 화법' 날릴 것 같은 스타는? 운영자 24/04/29 - -
452335 일반 LLM의 한계점은 이거 아닐까? [2] ㅇㅇ(112.161) 04.03 190 0
452334 일반 가성비 때문에 스케일을 무작정 늘릴수가 없음 [15] ㅇㅇ(175.125) 04.03 402 2
452332 일반 근데 너네 특이점 오면 누릴 [7] ㅇㅇ(115.88) 04.03 249 0
452331 일반 agi시기는 달성기준이 아니라 공개기준이지? [4] et갤로그로 이동합니다. 04.03 164 0
452330 일반 특갤 살리려면 m생들 쳐내야함 [10] ㅇㅇ(112.161) 04.03 366 2
452329 일반 큐스타 진짜 레전드인게 [5] ㅇㅇ(59.20) 04.03 411 1
452328 일반 알트게이가 사막에서 한다는건 큐스타관련된걸려나 ㅇㅇ(106.254) 04.03 89 0
452327 일반 시팔 그냥 정보검색 구글링이 최고다ㅋㅋㅋㅋㅋ [6] ㅇㅇ갤로그로 이동합니다. 04.03 442 0
452326 일반 GPT5 스케일이 크게 늘어날거 같진 않다 [1] ㅇㅇ(125.132) 04.03 205 0
452325 일반 최고의 자동사냥 시스템은 [3] ㅇㅇ(211.203) 04.03 211 0
452324 일반 특이점 2025년이라며 [8] ㅇㅇ(221.142) 04.03 325 1
452323 일반 gpt4는 계산 되긴 됨 [1] ㅇㅇ(1.244) 04.03 145 0
452322 일반 gpt5 언제 오냐? [3] ㅁㄴㅇㄹ(61.83) 04.03 137 1
452321 일반 특이점이 왜 필요한데? [4] ㅇㅇ(222.108) 04.03 258 0
452320 일반 미래엔 영화와 게임의 경계가 없어질듯 [1] ㅇㅇ(211.215) 04.03 152 1
452319 일반 여기 재밌는 갤임 [3] ㅇㅇ(211.241) 04.03 170 0
452318 일반 뭐야 gemini 1.5 사용량 제한도 있네 ㅇㅇ(180.64) 04.03 88 0
452317 일반 이딴게 특이점이냐?? [8] ㅇㅇ(211.194) 04.03 376 0
452316 일반 현실세계 전체를 학습시키려면 파괴적 투자가 필요하다 [2] xdxd333갤로그로 이동합니다. 04.03 149 1
452314 일반 근데 왜 agi가 특이점이라 생각했지? [2] ㅇㅇ(1.244) 04.03 177 0
452313 일반 있는 그대로 현실적으로 보자 [2] ㅇㅇ(125.178) 04.03 137 1
452311 일반 특이점 준비하기 위해 사무직으로 옮겻다 ㅇㅇ(125.243) 04.03 76 0
452310 일반 복제인간 뇌에 뉴럴링크 꽂고 학습데이터 뽑는게 [2] ㅇㅇ(1.244) 04.03 171 0
452309 일반 앞으로 이짤 쓰는 새끼들은 싹다 영구차단해라 [197] ㅇㅇ(117.20) 04.03 843 0
452308 일반 agi 보다 역노화가 먼저 올 것 같으면 개추 ㅋㅋ [2] ㅇㅇ(1.244) 04.03 206 1
452305 일반 스포츠용 휴머노이드 로봇 빨리 개발되면 좋겟다 [1] ㅇㅇ(125.180) 04.03 66 0
452304 일반 실업률 몇퍼부터 ㄱㅂㅅㄷ진지해지냐? [3] ㅇㅇ(125.143) 04.03 340 0
452303 일반 이거쩌는거아니냐 ㅇㅇ(14.53) 04.03 170 0
452302 일반 gpt5빨리보고싶다 [1] ㅇㅇ(14.53) 04.03 110 0
452301 일반 다들 고생많았다. ㅇㅇ(1.230) 04.03 96 0
452300 일반 GPT4 API 퍼온 코파일럿은 성능 안떨어졌나? ㅇㅇ(175.211) 04.03 61 0
452299 일반 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 면접떨어졌는데 기분좋음 [8] ㅇㅇ(123.142) 04.03 331 3
452298 일반 그래서 일리야는 어딨냐? ㅇㅇ(59.31) 04.03 51 0
452296 일반 노동점이 온다 ㄱㄱㄱㄱ ㅇㅇ(220.93) 04.03 144 1
452295 일반 llm의 시대가 가는거냐 [5] ㅇㅇ(121.152) 04.03 325 0
452293 일반 Gpt X 기대중 ㅇㅇ갤로그로 이동합니다. 04.03 115 0
452292 일반 뭔 다 여름출시래 [3] ㅇㅇ(124.56) 04.03 257 1
452291 일반 gpt5 기대하지마십쇼 [3] ㅇㅇ갤로그로 이동합니다. 04.03 293 0
452290 일반 클로드 사지마십쇼 [9] ㅇㅇ갤로그로 이동합니다. 04.03 383 0
452289 일반 gpt5는 꽤 위험한 물건인가봄 [3] et갤로그로 이동합니다. 04.03 435 1
452287 일반 더이상 못버티겠다 ㅇㅇ(211.197) 04.03 112 0
452286 일반 오늘도 인간의 '신성한 의무' 하러 가야겠지? [4] ㅇㅇ갤로그로 이동합니다. 04.03 388 6
452284 일반 아무튼 수고했다 ㅇㅇ(211.237) 04.03 49 0
452283 일반 수고해라 [1] ㅇㅇ(210.110) 04.03 91 0
452282 일반 수고했다 [3] ㅇㅇ(175.208) 04.03 163 0
452280 정보 OAI 공식 유튜브 업로드 [3] ㅇㅇ(123.100) 04.03 444 1
452278 일반 확정이네 수고했다 [4] 2025AGI온다갤로그로 이동합니다. 04.03 767 6
452277 일반 벚꽃 폈다. [12] ㅇㅇ(1.244) 04.03 445 0
452276 일반 bci기술이 상용화되서 개개인들이 전부 초지능 쥐게되면? [5] ㅇㅇ갤로그로 이동합니다. 04.03 182 1
452275 일반 오늘도 agi상용화가 빨리오길 간절히빌며... 출근... [8] ㅇㅇ(133.106) 04.03 170 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2