디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[일반] 비트넷 결과 부분 재현 성공모바일에서 작성

oo(141.223) 2024.03.29 23:35:44
조회 2071 추천 39 댓글 32
														
0490f719b3866af220afd8b236ef203ea93f24c6a663db





최근 화제가 된 비트넷 1.58 논문이 있어서 재현 시험이 있었지만 규모가 다소 작고(15.5M), 모델 및 학습 설정이 논문과 다른 부분의 한계가 있었습니다.
최근 논문에서 나온 단계를 비슷한게 재현한 사례가 huggingface에올라왔는데 설명에 따르면 원논문에서 나온 700M, 1.3B, 3B 규모의 모델을 사용했고 학습도 동일하게 RedPajama 데이터셋을 100B 토큰 학습다고 했습니다.
고무적인 부분으로는 결과로는 발표한 perplexity 및 벤치마크 데이터가 비교적으로 유사하게 나왔고, 모델도 공개했습니다.
아무래도 재현 결과가 원래 논문의 값보다 차이가 있긴있는데 (살짝 더 나쁜 편) 이는 아무래도 모델 학습 과정에서 생기는 무작위적 변동성과 논문에서 모델 학습 과정을 더 튜닝했을 과정도 있을 것 같습니다.


아직 3B에 머물고 있고 격차가 완전히 좁혀지지는 않았지만 논문의 신빙성이 어느정도 높아지지 않았나 생각됩니다.

기존 모델은 기본적으로 1T 토큰, 많으면 12T 토큰으로 학습시키는데 100B는 최근 트렌드에 비하여 다소 짧은 편인 부분이 있어서 경쟁력 있는 고성능 모델이 나올 수 있는지 불확실합니다.


https://huggingface.co/1bitLLM/bitnet_b1_58-3B

 


자동등록방지

추천 비추천

39

고정닉 15

원본 첨부파일 1

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2872 설문 연예인 안됐으면 어쩔 뻔, 누가 봐도 천상 연예인은? 운영자 24/06/17 - -
455433 정보/ 아마존 "생성 AI는 인터넷 이후 최고 기술"...앤드류 응 이사회 합류 [4] ㅇㅇ(182.230) 04.13 1072 13
455432 정보/ 생추어리, 자동차 부품 생산에 AI 로봇 투입 파트너십 [1] ㅇㅇ(182.230) 04.13 484 15
455430 정보/ 애플, AI 강화 위해 'M4' 칩 조기 업그레이드 [3] ㅇㅇ(182.230) 04.13 1072 18
455428 정보/ MS, 군사용 도구로 오픈AI '달리' 판매 시도 [1] ㅇㅇ(182.230) 04.13 193 10
455415 일반 개발자 근들갑보다 특이쭝이들 조울증이 더 꼴보기 실어여 ㅇㅅㅇ [18] ㅇㅇ(122.36) 04.13 1393 41
455397 AI창 샘 알트만 디스곡 만들어 줘 [5] ㅇㅇ갤로그로 이동합니다. 04.13 1353 30
455396 정보/ Cognition의 Devin으로 알아보는 AI업계의 과대광고 [17] ㅇㅇ(218.53) 04.13 1609 55
455381 일반 부자들도 역노화 포기한것같다 [10] ㅇㅇ(125.180) 04.13 1943 14
455363 일반 테슬라, 첨단 휴머노이드 로봇 특허 기술 공개 [3] ㅇㅇ(116.120) 04.13 1526 25
455357 일반 와 ㅅㅂ뭐냐 수학성능 ㅈㄴ올랐네 [17] ㅇㅇ(221.160) 04.13 2367 21
455341 일반 오픈ai가 데이터 엄청 긁어 모으고 있네 [3] ㅇㅇ갤로그로 이동합니다. 04.13 1969 26
455340 일반 전 PayPal CEO "gpt5는 정말 놀라운 순간이 될 것" [25] 특술람갤로그로 이동합니다. 04.13 2694 35
455335 일반 Mistral AI CEO "나는 AGI를 믿지 않는다" [10] 특술람갤로그로 이동합니다. 04.13 1924 23
455328 일반 특갤말투로 해달라니까 탈옥됐다 [9] ㅇㅇ(14.36) 04.13 2145 40
455315 일반 이새끼 뭐임?? [11] ㅇㅇ갤로그로 이동합니다. 04.13 1517 23
455278 일반 내가 믿고 거르는 기술소식 4가지 [43] ㅇㅇ(183.106) 04.12 3567 110
455200 정보/ 하이브리드 소듐 전지 개발…"수 초 만에 급속 충전" [29] 니지카엘갤로그로 이동합니다. 04.12 1984 23
455194 일반 커즈와일 : 자신의 예상보다 기술발전이 빠르게 진행중 [58] 부패하는유전자!!!갤로그로 이동합니다. 04.12 3503 48
455183 일반 GPT 신버전이 클로드 벤치 이겼다며 [6] ㅇㅇ(182.211) 04.12 908 14
455064 정보/ MS, 5월 컨퍼런스서 '윈도우 AI 기능' 발표에 초점 [8] ㅇㅇ(182.230) 04.11 1716 17
455143 정보/ Rho-1: 모든 토큰이 필요한 것은 아닙니다 [10] 특술람갤로그로 이동합니다. 04.12 1344 18
455126 정보/ GPT-4 turbo 0409 공식벤치결과 [12] 특술람갤로그로 이동합니다. 04.12 2259 22
455113 정보/ OAI 연구원 2명 정보 유출 혐의로 해고됨 [14] ㅇㅇ(211.59) 04.12 2158 18
455084 정보/ [사이언스샷] 꿈의 면역항암제, 줄기세포처럼 회춘해 업그레이드 [8] ㅇㅇ갤로그로 이동합니다. 04.12 1349 20
455165 일반 0409 버전 다른건 몰라도 수학은 꽤 상승폭이 크네 [2] ㅇㅇ(218.154) 04.12 403 14
455158 일반 gpt4 0410 ㄷㄷㄷㄷㄷㄷㄷ [7] ㅇㅇ(182.229) 04.12 812 15
455078 일반 앤드류 응, 아마존 이사회에 합류 [9] ㅇㅇ(116.120) 04.12 1641 15
455076 AI창 그냥 존나 아름답네 [20] ㅇㅇ갤로그로 이동합니다. 04.12 4788 33
455063 정보/ 구글, '생성 AI 사진 편집' 기능 무료로 확대 [10] ㅇㅇ(182.230) 04.11 2227 16
455061 정보/ GPU 배송 2~3개월로 단축..."연말쯤 지연 없어질 것" [5] ㅇㅇ(182.230) 04.11 1676 18
454901 정보/ 구글 무한 컨텍스트 트랜스포머 발표 [11] 특술람갤로그로 이동합니다. 04.11 2449 22
454792 정보/ 현재까지 인류가 만든 가장 정확하고 큰 뇌지도 [11] ㅇㅇ(220.118) 04.11 3972 31
454778 정보/ 전례없는 해상도로 뇌를 스캔하는 초강력 MRI [4] ㅇㅇ(182.230) 04.11 939 17
454739 일반 작년에 내년 4월초까지도 GPT5 안나왔을줄 상상도 못했으면 개추ㅋㅋ [9] ㅇㅇ(121.130) 04.11 2816 46
454712 정보/ 메타, '라마 3' 대형 버전 매개변수는 1400억개 [7] ㅇㅇ(182.230) 04.10 1858 21
454698 정보/ 달 표면 티타늄, 맨틀까지 가라앉았다가 분출됐다 [3] ㅇㅇ(182.230) 04.10 1712 18
454689 AI창 Suno 킬러 AI 출시기념 [19] ㅇㅇ갤로그로 이동합니다. 04.10 2938 35
454679 일반 udio 미쳤는데? [22] 디시콘발사대갤로그로 이동합니다. 04.10 2491 20
454676 정보/ Suno 킬러, Udio 공식 출사표! (무료 제공 ㅎㄷㄷ) [10] ㅇㅇ(123.100) 04.10 2318 23
454664 일반 gpt터보 0409 성능테스트 결과가 죄다 제각각이네 [3] ㅇㅇ(175.213) 04.10 1224 17
454645 정보/ 미스트랄 새 모델 오픈소스ㄷㄷㄷ [9] ㅇㅇ(123.100) 04.10 1572 18
454548 일반 코딩은 더 성능 떨어진다 ㄷㄷㄷ [3] ㅇㅇ(121.190) 04.10 3347 20
454498 정보/ Gpt4 turbo 0409 코딩점수도 올랐음 [7] 특술람갤로그로 이동합니다. 04.10 1981 22
454437 정보/ 메타 "AGI 도약 방법 발견...'트랜스포머'와 다른 아키텍처 개발 중 [34] ㅇㅇ(211.59) 04.10 2947 31
454397 일반 GPT4 터보 레전드 [14] et갤로그로 이동합니다. 04.10 2714 20
454356 일반 Gpt-4 터보0409 AlpacaEval2.0 벤치결과 [12] 특술람갤로그로 이동합니다. 04.10 2252 19
454328 일반 gpt4 터보 수학 후기.. [5] ㅇㅇ(123.100) 04.10 1954 15
454310 정보/ 새로운 GPT-4 turbo, 엄청나게 개선(특히 수학) [10] ㅇㅇ(123.100) 04.10 2322 19
454302 정보/ OpenAI, GPT-4 Turbo 크게 개선된 모델 배포 [8] ㅇㅇ(123.100) 04.10 2415 18
454269 정보/ 인텔 새로운 칩 Gaudi3 공개 [10] ㅇㅇ(211.59) 04.10 1794 24
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2