디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보/뉴스] 컴퓨터비전의 GPT 모먼트가 왔다 (VAR)

ㅇㅇ(123.100) 2024.04.08 00:04:20
조회 3156 추천 32 댓글 39
														

7cf3c028e2f206a26d81f6e445867c695187


7ff3c028e2f206a26d81f6e641897c642c


7ef3c028e2f206a26d81f6e441827769dd

우리는 이미지에 대한 자동 회귀 학습을 표준 래스터 스캔 "다음-스케일 예측"에서 벗어나 대략적인 "다음 규모 예측" 또는 "다음 해상도 예측"으로 재정의하는 차세대 패러다임인 Visual AutoRegressive 모델링(VAR)을 제시합니다. 토큰 예측".


이 간단하고 직관적인 방법을 사용하면 자동회귀(AR) 변환기가 시각적 분포를 빠르게 학습하고 잘 일반화할 수 있습니다.


VAR을 사용하면 처음으로 AR 모델이 이미지 생성에서 확산 변환기(DiT)를 능가하게 됩니다.


ImageNet 256x256 벤치마크에서 VAR은 FID(Frechet Inception Distance)를 18.65에서 1.80으로, IS(Inception Score)를 80.4에서 356.4로 개선하고 추론 속도를 약 20배 더 빠르게 개선하여 AR 기준을 크게 향상시킵니다.


또한 VAR은 이미지 품질, 추론 속도, 데이터 효율성, 확장성 등 여러 측면에서 DiT(확산 변환기)보다 성능이 우수하다는 것이 경험적으로 검증되었습니다.


VAR 모델을 확장하면 LLM에서 관찰된 것과 유사한 명확한 거듭제곱 법칙이 나타나며 선형 상관 계수는 -0.998에 가깝다는 확실한 증거가 있습니다.


VAR은 이미지 인페인팅, 아웃페인팅 및 편집을 포함한 다운스트림 작업에서 제로샷 일반화 기능을 더욱 보여줍니다.


이러한 결과는 VAR이 처음에 LLM의 두 가지 중요한 속성인 확장 법칙과 제로샷 작업 일반화를 에뮬레이트했음을 시사합니다.


시각적 생성 및 통합 학습을 위한 AR/VAR 모델 탐색을 촉진하기 위해 모든 모델과 코드를 공개했습니다.



Sora에도 쓰인 DiT(디퓨전 트랜스포머)를 넘어서는 방법이 등장함

DiT 대비 지표도 뛰어나며, 특히 LLM과 똑같은 스케일링 법칙이 명확하게 관찰됨

생성 속도 또한 DiT 대비 훨씬 더 빠름(대략 45배~80배)

북경대와 바이트댄스에서 내놓음

소스코드 및 가중치 오픈소스


78f3c028e2f206a26d81f6e44482726c








자동등록방지

추천 비추천

32

고정닉 11

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2863 설문 시세차익 부러워 부동산 보는 눈 배우고 싶은 스타는? 운영자 24/05/27 - -
457172 일반 라마3 70b [5] 특술람갤로그로 이동합니다. 04.18 1753 28
457168 일반 르쿤햄 오늘도 호감 1스택 적립 [5] ㅇㅇ(218.158) 04.18 1369 27
457165 정보/ 라마3 발표 [15] 특술람갤로그로 이동합니다. 04.18 2713 34
457122 일반 국내는 솔직히 병신맞음 [4] ㅇㅇ(118.235) 04.18 1132 18
457091 정보/ MS-오픈AI, EU의 합병 조사 피할 듯..."단순 투자로 결론" [2] ㅇㅇ(182.230) 04.18 962 17
457057 일반 [충격]세계 최초 뇌영상 기술 조작 논란 [28] xdxd333갤로그로 이동합니다. 04.18 2852 24
456979 일반 근데 진짜 빅이슈면 이미 해외에서부터 ㄹ들갑떨긴 함 [4] ㅇㅇ(115.139) 04.18 1030 22
456973 일반 념글 이거 존나웃기네 씨발 ㅋㅋㅋㅋㅋ [10] ㅇㅇ갤로그로 이동합니다. 04.18 3462 31
456946 정보/ 삼성전자, 업계 최고 속도 LPDDR5X D램 개발 [4] ㅇㅇ(182.230) 04.18 1896 24
456944 일반 싱글벙글 보스턴 다이나믹스 로봇 근황.gif [28] ㅇㅇ­갤로그로 이동합니다. 04.18 3069 29
456934 정보/ 피터 틸 "AI가 작가보다 수학 덕후들에게 '더 나쁠 것'" [18] 특술람갤로그로 이동합니다. 04.18 2876 26
456923 정보/ 닉보스트롬 인류미래연구소 문 닫음 [4] 특술람갤로그로 이동합니다. 04.18 1033 20
456922 정보/ 인텔, 세계 최대의 뉴로모픽 시스템 '할라 포인트' 구축 [9] ㅇㅇ(182.230) 04.18 1521 28
456913 정보/ 새로운 아틀라스 로봇에 대해 CEO와의 Q&A [11] ㅇㅇ갤로그로 이동합니다. 04.18 1798 23
456890 일반 얀 르쿤의 AI관련 의견에서 감안해야 하는 점은 [33] ㅇㅇ(218.48) 04.18 1858 31
456828 일반 뉴아틀라스 떳다(링크) [43] ㅇㅇ(121.168) 04.17 2687 30
456817 정보/ Daniel Kokotajilo, OpenAI 퇴직 [6] ㅇㅇ(125.191) 04.17 1150 20
456805 정보/ 생성AI가 잡아낸 진단기록 오류, 영상의학과 전문의 못지 않다 [3] ㅇㅇ(182.230) 04.17 1201 22
456804 정보/ "구글도 AI 슈퍼컴퓨터에 1000억달러 이상 투자할 것" [3] ㅇㅇ(182.230) 04.17 1005 23
456803 정보/ "AI 논문 표절 심각"…수백만명이 논문 작성에 생성 AI 활용 [5] ㅇㅇ(182.230) 04.17 1754 16
456800 정보/ MS, UAE G42에 2조 투자로 이사회 합류..."중국 완전 차단" [2] ㅇㅇ(182.230) 04.17 958 16
456776 일반 한국은 알엔디를 너무 무작정 부풀렸음 [23] ㅇㅇ(121.168) 04.17 1868 23
456768 정보/ 한국, AI 특허 수는 1위지만 작년 개발 모델 없고 인재 유출 [18] 니지카엘갤로그로 이동합니다. 04.17 1133 11
456763 정보/ 예쁜꼬마선충과 인간의 뇌 부피 간접 비교 [19] ㅇㅇ(182.230) 04.17 1971 16
456734 정보/ 뇌에 '바코드' 새겨 일시 기억 저장한다 [14] ㅇㅇ(182.230) 04.17 2589 20
456703 정보/ TransformerFAM: 피드백 주의는 작업 메모리입니다. [12] 특술람갤로그로 이동합니다. 04.17 1019 14
456679 AI창 AI야 케이크 위에 앉은 미소녀 그려줘 [17] ㅇㅇ갤로그로 이동합니다. 04.17 1820 14
456642 일반 펌) 생식기 실험을 통한 AI 인지능력 테스트 [19] agi2024갤로그로 이동합니다. 04.17 2908 27
456611 일반 개시발 근들갑 병신 원툴새기들 트위터 똥글은 그만퍼와라 [16] ㅇㅇ(14.45) 04.17 1982 49
456604 일반 념글 레데리2 클리어 근들갑 같은데 [13] ㅇㅇ(221.160) 04.16 2411 22
456599 정보/ 보스턴 다이내믹스 - 유압식 아틀라스와의 작별 [26] SGG갤로그로 이동합니다. 04.16 2286 19
456584 정보/ MetaAI 퇴사자, 새로운 회사 설립 [2] ㅇㅇ(118.235) 04.16 1817 19
456567 일반 LLM 훈련비용 7년 새 20만배 이상 증가 [14] ㅇㅇ(125.142) 04.16 1966 14
456565 정보/ 어도비, 동영상 편집기 '프리미어'에 '소라' 등 결합 예정 [17] ㅇㅇ(182.230) 04.16 1727 23
456561 정보/ 레카, 새로운 LMM '코어' 출시..."일부 성능서 GPT-4 능가" [8] ㅇㅇ(182.230) 04.16 1311 16
456559 정보/ 오픈AI, 1년 만에 직원수 2배 증가..."올말에는 1500명 넘을 것 [7] ㅇㅇ(182.230) 04.16 1555 17
456558 정보/ 지난해 전 세계 파운데이션 모델 149개 출시 [7] ㅇㅇ(182.230) 04.16 940 13
456557 일반 네옴시티 완전 망한거 알고있냐? [40] 빅모드갤로그로 이동합니다. 04.16 3250 31
456554 정보/ "지금까지 리뷰한 최악의 제품"...Ai 핀 리뷰로 떠들썩 [10] ㅇㅇ(182.230) 04.16 1730 11
456553 정보/ "챗GPT로 게임 '레드 데드 리뎀션 2' 클리어 [14] ㅇㅇ(182.230) 04.16 2333 15
456476 일반 할아버지가 특이점 와봤자 다른게 없다고한다. [21] ㅇㅇ(218.233) 04.16 1118 21
456470 일반 "박사 과정에서 수십억 년이 걸렸을 일을 우리는 1년 만에 해냈습니다" [13] ㅇㅇ(221.157) 04.16 1318 13
456463 정보/ 인터넷속도 176만배 빠르게 하는 기술 개발됨 [47] ㅇㅇ(210.178) 04.16 2494 17
456461 일반 인디게임 개발자로써, GPT는 충분히 가치가 있다. [19] ㅇㅇ(116.34) 04.16 2563 24
456443 일반 머스크 스페샬 [8] ㅇㅇ(222.101) 04.16 634 11
456425 일반 3대 십새끼 어록 모음 [12/1] ㅇㅇ갤로그로 이동합니다. 04.16 2309 34
456424 정보/ 압축은 지능을 선형적으로 나타냅니다. [4] 특술람갤로그로 이동합니다. 04.16 709 23
456421 일반 너넨 살아보니 노력 할만 하더냐? [24] ㅇㅇ(59.9) 04.16 801 13
456412 일반 인류를 위해 안 까고있다 하면 돌천지랑 뭐가다르냐 [3] ㅇㅇ(106.101) 04.16 368 10
456401 일반 아가리 털드만이 마케팅하러 다닌다 (X) [3] ㅇㅇ갤로그로 이동합니다. 04.16 337 12
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2