디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 비트넷 결과 부분 재현 성공모바일에서 작성

oo(141.223) 2024.03.29 23:35:44
조회 2053 추천 39 댓글 32
														
0490f719b3866af220afd8b236ef203ea93f24c6a663db





최근 화제가 된 비트넷 1.58 논문이 있어서 재현 시험이 있었지만 규모가 다소 작고(15.5M), 모델 및 학습 설정이 논문과 다른 부분의 한계가 있었습니다.
최근 논문에서 나온 단계를 비슷한게 재현한 사례가 huggingface에올라왔는데 설명에 따르면 원논문에서 나온 700M, 1.3B, 3B 규모의 모델을 사용했고 학습도 동일하게 RedPajama 데이터셋을 100B 토큰 학습다고 했습니다.
고무적인 부분으로는 결과로는 발표한 perplexity 및 벤치마크 데이터가 비교적으로 유사하게 나왔고, 모델도 공개했습니다.
아무래도 재현 결과가 원래 논문의 값보다 차이가 있긴있는데 (살짝 더 나쁜 편) 이는 아무래도 모델 학습 과정에서 생기는 무작위적 변동성과 논문에서 모델 학습 과정을 더 튜닝했을 과정도 있을 것 같습니다.


아직 3B에 머물고 있고 격차가 완전히 좁혀지지는 않았지만 논문의 신빙성이 어느정도 높아지지 않았나 생각됩니다.

기존 모델은 기본적으로 1T 토큰, 많으면 12T 토큰으로 학습시키는데 100B는 최근 트렌드에 비하여 다소 짧은 편인 부분이 있어서 경쟁력 있는 고성능 모델이 나올 수 있는지 불확실합니다.


https://huggingface.co/1bitLLM/bitnet_b1_58-3B

 


자동등록방지

추천 비추천

39

고정닉 15

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
454227 정보/ 스태빌리티 AI, 120억 매개변수 ‘LM 2’ 출시…"sLM 최강" [4] ㅇㅇ(182.230) 04.09 1301 19
454222 정보/ "메타·MS도 인종 편향"...빅테크 생성 AI 잇단 구설수 [7] ㅇㅇ(182.230) 04.09 1291 16
454220 정보/ 알트먼, 보유 자.산 10억달러로 포브스 '억만장자' 대열 합류 ㅇㅇ(182.230) 04.09 219 13
454218 정보/ MS, 구글 딥마인드 인재 영입 위해 런던에 지사 설립 [2] ㅇㅇ(182.230) 04.09 173 12
454213 정보/ 머스크 "그록-2.0 다음달까지 훈련...GPU가 부족해" [5] ㅇㅇ(182.230) 04.09 1635 19
454205 정보/ 구글도 'AI 에이전트' 개발 중...딥마인드에 전담 조직 구성 [1] ㅇㅇ(182.230) 04.09 1034 16
454196 정보/ 핵융합 근황 [16] 007빵(175.194) 04.09 2968 35
454171 정보/ 구글 딥마인드 CEO "오픈AI 소라 따라잡기 어려울 것 [30] 특술람갤로그로 이동합니다. 04.09 2818 28
454156 정보/ 스팀사장 게이브뉴웰이 새로운 뉴럴링크 경쟁자로? [10] ㅇㅇ갤로그로 이동합니다. 04.09 1363 24
454142 일반 돌고 돌아서 이새끼면 개추 ㅋㅋ [1] ㅇㅇ(210.106) 04.09 1815 22
454135 일반 fsd 근황.. [15] ㅇㅇ(210.106) 04.09 1924 21
454085 정보/ 클로드를 탈옥해 '하이브 마인드'를 구축한 트위터 유저 [34] ㅇㅇ(218.52) 04.09 3398 38
454031 일반 카이스트 항암 신약 개발 소식.. ㄷㄷ [16] ㅇㅇ(175.125) 04.09 2088 20
454019 일반 클로드<<<gpt4인데??? [10] ㅇㅇ(61.79) 04.09 2140 13
453943 정보/ 20년 췌장암만 판 美 교수도 놀랐다 “전례 없는 치료 효과” [22] ㅇㅇ(211.59) 04.09 3530 30
453934 정보/ 핀란드 사일로, 북유럽 언어 위한 오픈 소스 LLM '바이킹' 출시 [2] ㅇㅇ(182.230) 04.08 202 10
453933 정보/ 엔비디아, 포춘 '일하기 좋은 기업' 3위 기록 [4] ㅇㅇ(182.230) 04.08 1351 15
453932 정보/ 오픈AI·메타·구글 "협상 대신 소송"...인터넷 데이터 마구잡이로 퍼가 [8] ㅇㅇ(182.230) 04.08 1644 18
453919 정보/ 데미스 허사비스는 팀의 사기를 회복하려고 노력함 [19] ㅇㅇ(123.100) 04.08 1958 18
453820 일반 특이점이 온다 인스타계정 만들었다 [40] 잇잇잇훈갤로그로 이동합니다. 04.08 2764 23
453779 정보/ 과학자 없는 AI 실험실 … 나노소재 직접 개발 [35] 니지카엘갤로그로 이동합니다. 04.08 3426 30
453776 정보/ oai 소라팀 연구원"소라는 비디오의 gpt1" [20] ㅇㅇ(211.59) 04.08 3004 26
453773 일반 Ai 발전정체가 계속될 가능성이 높은이유 (삭제업) [47] ㅇㅇ(118.129) 04.08 3892 45
453735 정보/ GPT한계 지적하던 트위터인 1만달러 현상금 결과.. [21] ㅇㅇ(123.100) 04.08 3237 31
453679 정보/ 컴퓨터비전의 GPT 모먼트가 왔다 (VAR) [39] ㅇㅇ(123.100) 04.08 3157 32
453678 정보/ 생각의 시각화는 대규모 언어 모델에서 공간 추론을 이끌어냅니다. [10] ㅇㅇ(125.191) 04.08 357 10
453653 일반 형님들 suno ai랑 ai휴먼 합성해봤습니다 [21] 레커(125.176) 04.07 3215 19
453643 정보/ MoD: 트랜스포머 기반 언어 모델 최적화를 위한 접근법 [8] ㅇㅇ(182.230) 04.07 1228 20
453629 정보/ AI 학습 데이터 시장 급속 확대..."단어에 1000개 당 1달러" [5] ㅇㅇ(182.230) 04.07 2116 17
453625 정보/ MS·퀀티넘 "큐비트 안정화 성공..."양자 컴퓨팅 상용화 진입" [17] ㅇㅇ(182.230) 04.07 2252 31
453403 정보/ 인류의 독특한 지능 수준을 설명하는 데 규모가 필요한 전부 [42] 특술람갤로그로 이동합니다. 04.06 3867 21
453528 일반 알트만 피셜 과도기 기간 2주라네 [41] ㅇㅇ갤로그로 이동합니다. 04.07 4398 41
453492 일반 역노화 실험 내년부터 시작한다는듯 [27] ㅇㅇ(112.168) 04.07 4501 39
453485 일반 전 테슬라 연구원"fsd 차기 버전은 인간과 소통할 수 있는 agi 버전 [14] ㅇㅇ(211.59) 04.07 1778 16
453484 일반 oai 연구원"영상 생성은 모든 것을 시뮬레이션 하여 agi로 이어질것" [28] ㅇㅇ(211.59) 04.07 3306 32
453475 정보/ "화산지대 암석 균열 속 열 흐름이 생명 기원 물질 생성 촉진" [3] ㅇㅇ(182.230) 04.07 1626 20
453458 일반 샘알트먼 & 사티나 나텔라 인터뷰 영상 [6] ㅇㅇ(211.107) 04.07 2159 29
453448 일반 싹다구속시켜.씨발.feel the agi.씹새끼들.꽉잡아라.노동시켜.노동 [34] 약중독고앵이갤로그로 이동합니다. 04.07 4288 93
453434 역노화 알츠하이머 치료제, 집에서 맞으며 관리하는 시대 열린다 [12] ㅇㅇ갤로그로 이동합니다. 04.07 1512 16
453431 일반 게임오바네 [13] ㅇㅇ갤로그로 이동합니다. 04.07 3816 60
453409 정보/ 알트먼, '챗GPT 전용 기기' 제조 위해 1.4조 모금 중 [15] ㅇㅇ(182.230) 04.06 2836 36
453377 일반 특이점으로 본 조1선붕당의 이해 [20] et갤로그로 이동합니다. 04.06 2379 63
453184 정보/ "빅뱅 10억년 후, 우주의 시간은 '5배' 느렸다" [13] ㅇㅇ(182.230) 04.06 3085 25
453181 정보/ 머스크 "AI 인재 전쟁은 미친 짓...테슬라 직원 급여 인상할 것" [5] ㅇㅇ(182.230) 04.06 919 12
453180 정보/ 람다, 'H100' GPU 담보로 6500억 대출 받아 [11] ㅇㅇ(182.230) 04.06 1889 23
453110 일반 아니 시발 이왜진? 작곡가들 쵸--비상!!!!!! [36] ㅇㅇ(222.118) 04.05 5567 44
452887 정보/ 염색체 말단 '텔로미어' 메커니즘 규명…"항암 치료 전략에 도움" [24] ㅇㅇ(182.230) 04.05 3526 23
452990 일반 인간 중위 데이터과학자를 능가하는 ai [17] 특술람갤로그로 이동합니다. 04.05 3528 28
452935 일반 "어이 샘! 오늘 트위터 근들갑 차례는 너라고!" [27] ㅇㅇ갤로그로 이동합니다. 04.05 3661 40
452927 일반 AI 일상화에 7100억원 투입···AI 혁명으로 한국 구조적 위기 극복 [32] Varian■Wrynn갤로그로 이동합니다. 04.05 3085 25
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2