디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 비트넷 결과 부분 재현 성공모바일에서 작성

oo(141.223) 2024.03.29 23:35:44
조회 2036 추천 39 댓글 32
														
0490f719b3866af220afd8b236ef203ea93f24c6a663db





최근 화제가 된 비트넷 1.58 논문이 있어서 재현 시험이 있었지만 규모가 다소 작고(15.5M), 모델 및 학습 설정이 논문과 다른 부분의 한계가 있었습니다.
최근 논문에서 나온 단계를 비슷한게 재현한 사례가 huggingface에올라왔는데 설명에 따르면 원논문에서 나온 700M, 1.3B, 3B 규모의 모델을 사용했고 학습도 동일하게 RedPajama 데이터셋을 100B 토큰 학습다고 했습니다.
고무적인 부분으로는 결과로는 발표한 perplexity 및 벤치마크 데이터가 비교적으로 유사하게 나왔고, 모델도 공개했습니다.
아무래도 재현 결과가 원래 논문의 값보다 차이가 있긴있는데 (살짝 더 나쁜 편) 이는 아무래도 모델 학습 과정에서 생기는 무작위적 변동성과 논문에서 모델 학습 과정을 더 튜닝했을 과정도 있을 것 같습니다.


아직 3B에 머물고 있고 격차가 완전히 좁혀지지는 않았지만 논문의 신빙성이 어느정도 높아지지 않았나 생각됩니다.

기존 모델은 기본적으로 1T 토큰, 많으면 12T 토큰으로 학습시키는데 100B는 최근 트렌드에 비하여 다소 짧은 편인 부분이 있어서 경쟁력 있는 고성능 모델이 나올 수 있는지 불확실합니다.


https://huggingface.co/1bitLLM/bitnet_b1_58-3B

 


자동등록방지

추천 비추천

39

고정닉 15

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2856 설문 주위 눈치 안 보고(어쩌면 눈치 없이) MZ식 '직설 화법' 날릴 것 같은 스타는? 운영자 24/04/29 - -
455902 정보 채신논문) 어리석음을 찬양하며: 유연한 목표와 인간의 인지 능력 [6] ㅇㅇ갤로그로 이동합니다. 04.14 2630 24
455884 정보 구글 삼성결별 2025년부터 TSMC에서 생산 [6] ㅇㅇ(125.143) 04.14 731 10
455850 일반 데빈 저격영상 떳네 ㅋㅋ [15] 상한포도갤로그로 이동합니다. 04.14 3147 27
455846 일반 devin 걍 사기꾼이였네 [8] ㅇㅇ(211.36) 04.14 2782 20
455800 일반 샘 알트만 ”agi 개발완료“는 날조임 [10] ㅇㅇ(116.120) 04.14 3480 44
455774 일반 “韓 연구진이 개발한 뇌 영상 기술 …연이은 검증 실패 [9] ㅇㅇ(211.234) 04.14 2515 22
455743 일반 이런일 다들 경험해봣을건데 [22] ㅇㅇ(117.20) 04.14 2843 31
455680 일반 2025년이 7개월남았다는게 어이가없네 [8] ㅇㅇ(211.197) 04.13 3542 33
455679 정보 AI가 월스트리트에 온다, 은행 분석가 채용 2/3로 줄이는 것을 고려중 [4] ㅇㅇ(125.191) 04.13 771 10
455648 일반 영상다시봤는데 힌튼이 말을 이상하게했음 [8] ㅇㅇ(211.197) 04.13 1590 16
455619 일반 특갤에 갈수록 병신새끼들만 남는거같다고? [17] ㅇㅇ(58.127) 04.13 2850 53
455614 AI창 AI야 클레 귀엽게 그려줘 [17] ㅇㅇ갤로그로 이동합니다. 04.13 2439 24
455604 일반 내 사촌여동생(12살)한테 특이점 설명해줬음 [63] 초존도초갤로그로 이동합니다. 04.13 2718 33
455584 일반 제프리 힌튼 "AI 챗봇은 감각과 주관적 경험을 가지고 있다" [16] ㅇㅇ(1.237) 04.13 2297 24
455563 정보 빌게이츠가 말하는 AI 시대에 살아남을 직업 3가지 [20] ㅇㅇ(119.207) 04.13 3830 36
455533 정보 뇌 없이 운동 학습하고 기억하는 메커니즘 찾았다 [4] ㅇㅇ(182.230) 04.13 1346 14
455520 일반 얀르쿤은 빌라에 사는 성난 아줌마다. [25] ㅇㅇ갤로그로 이동합니다. 04.13 2052 46
455500 일반 난 왜 얀르쿤 말이 맞아보이지 [21] ㅇㅇ(39.7) 04.13 2685 45
455452 일반 오늘도 연전연승 ㅇㅇ(58.127) 04.13 1235 27
455447 정보 삼성, 갤럭시 S22·21에도 AI 일부 적용 [2] ㅇㅇ(182.230) 04.13 2202 24
455442 정보 오픈AI, 기업 시장 확장 위해 MS와 경쟁 불사 [2] ㅇㅇ(182.230) 04.13 1282 20
455441 정보 오픈AI, 유출 혐의로 연구원 2명 해고..."효과적인 이타주의 연관" [8] ㅇㅇ(182.230) 04.13 1372 18
455438 정보 메타가 공개한 AGI로 가는 방법, 'V-제파'란 [13] ㅇㅇ(182.230) 04.13 1985 30
455436 정보 메타, AI의 ‘현실 이해' 돕는 오픈 소스 데이터셋 출시 [2] ㅇㅇ(182.230) 04.13 785 13
455435 정보 그록 1.5v 발표 [14] 특술람갤로그로 이동합니다. 04.13 1524 28
455434 정보 "로봇이 일자리를 빼앗는다는 것은 '신화'에 불과" [7] ㅇㅇ(182.230) 04.13 1809 17
455433 정보 아마존 "생성 AI는 인터넷 이후 최고 기술"...앤드류 응 이사회 합류 [4] ㅇㅇ(182.230) 04.13 1046 13
455432 정보 생추어리, 자동차 부품 생산에 AI 로봇 투입 파트너십 [1] ㅇㅇ(182.230) 04.13 452 15
455430 정보 애플, AI 강화 위해 'M4' 칩 조기 업그레이드 [3] ㅇㅇ(182.230) 04.13 1032 18
455428 정보 MS, 군사용 도구로 오픈AI '달리' 판매 시도 [1] ㅇㅇ(182.230) 04.13 169 10
455415 일반 개발자 근들갑보다 특이쭝이들 조울증이 더 꼴보기 실어여 ㅇㅅㅇ [19] ㅇㅇ(122.36) 04.13 1364 41
455397 AI창 샘 알트만 디스곡 만들어 줘 [5] ㅇㅇ갤로그로 이동합니다. 04.13 1310 30
455396 정보 Cognition의 Devin으로 알아보는 AI업계의 과대광고 [17] ㅇㅇ(218.53) 04.13 1530 54
455381 일반 부자들도 역노화 포기한것같다 [10] ㅇㅇ(125.180) 04.13 1850 14
455363 일반 테슬라, 첨단 휴머노이드 로봇 특허 기술 공개 [3] ㅇㅇ(116.120) 04.13 1490 25
455357 일반 와 ㅅㅂ뭐냐 수학성능 ㅈㄴ올랐네 [17] ㅇㅇ(221.160) 04.13 2324 21
455341 일반 오픈ai가 데이터 엄청 긁어 모으고 있네 [3] ㅇㅇ갤로그로 이동합니다. 04.13 1942 26
455340 일반 전 PayPal CEO "gpt5는 정말 놀라운 순간이 될 것" [26] 특술람갤로그로 이동합니다. 04.13 2654 35
455335 일반 Mistral AI CEO "나는 AGI를 믿지 않는다" [10] 특술람갤로그로 이동합니다. 04.13 1874 23
455328 일반 특갤말투로 해달라니까 탈옥됐다 [9] ㅇㅇ(14.36) 04.13 2041 40
455315 일반 이새끼 뭐임?? [11] ㅇㅇ갤로그로 이동합니다. 04.13 1503 23
455278 일반 내가 믿고 거르는 기술소식 4가지 [43] ㅇㅇ(183.106) 04.12 3482 109
455200 정보 하이브리드 소듐 전지 개발…"수 초 만에 급속 충전" [29] 니지카엘갤로그로 이동합니다. 04.12 1971 23
455194 일반 커즈와일 : 자신의 예상보다 기술발전이 빠르게 진행중 [59] 부패하는유전자!!!갤로그로 이동합니다. 04.12 3447 48
455183 일반 GPT 신버전이 클로드 벤치 이겼다며 [6] ㅇㅇ(182.211) 04.12 886 14
455064 정보 MS, 5월 컨퍼런스서 '윈도우 AI 기능' 발표에 초점 [8] ㅇㅇ(182.230) 04.11 1700 17
455143 정보 Rho-1: 모든 토큰이 필요한 것은 아닙니다 [10] 특술람갤로그로 이동합니다. 04.12 1339 18
455126 정보 GPT-4 turbo 0409 공식벤치결과 [12] 특술람갤로그로 이동합니다. 04.12 2225 22
455113 정보 OAI 연구원 2명 정보 유출 혐의로 해고됨 [14] ㅇㅇ(211.59) 04.12 2147 18
455084 정보 [사이언스샷] 꿈의 면역항암제, 줄기세포처럼 회춘해 업그레이드 [8] ㅇㅇ갤로그로 이동합니다. 04.12 1324 20
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2