디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] 컴퓨터비전의 GPT 모먼트가 왔다 (VAR)

ㅇㅇ(123.100) 2024.04.08 00:04:20
조회 3139 추천 32 댓글 39
														

7cf3c028e2f206a26d81f6e445867c695187


7ff3c028e2f206a26d81f6e641897c642c


7ef3c028e2f206a26d81f6e441827769dd

우리는 이미지에 대한 자동 회귀 학습을 표준 래스터 스캔 "다음-스케일 예측"에서 벗어나 대략적인 "다음 규모 예측" 또는 "다음 해상도 예측"으로 재정의하는 차세대 패러다임인 Visual AutoRegressive 모델링(VAR)을 제시합니다. 토큰 예측".


이 간단하고 직관적인 방법을 사용하면 자동회귀(AR) 변환기가 시각적 분포를 빠르게 학습하고 잘 일반화할 수 있습니다.


VAR을 사용하면 처음으로 AR 모델이 이미지 생성에서 확산 변환기(DiT)를 능가하게 됩니다.


ImageNet 256x256 벤치마크에서 VAR은 FID(Frechet Inception Distance)를 18.65에서 1.80으로, IS(Inception Score)를 80.4에서 356.4로 개선하고 추론 속도를 약 20배 더 빠르게 개선하여 AR 기준을 크게 향상시킵니다.


또한 VAR은 이미지 품질, 추론 속도, 데이터 효율성, 확장성 등 여러 측면에서 DiT(확산 변환기)보다 성능이 우수하다는 것이 경험적으로 검증되었습니다.


VAR 모델을 확장하면 LLM에서 관찰된 것과 유사한 명확한 거듭제곱 법칙이 나타나며 선형 상관 계수는 -0.998에 가깝다는 확실한 증거가 있습니다.


VAR은 이미지 인페인팅, 아웃페인팅 및 편집을 포함한 다운스트림 작업에서 제로샷 일반화 기능을 더욱 보여줍니다.


이러한 결과는 VAR이 처음에 LLM의 두 가지 중요한 속성인 확장 법칙과 제로샷 작업 일반화를 에뮬레이트했음을 시사합니다.


시각적 생성 및 통합 학습을 위한 AR/VAR 모델 탐색을 촉진하기 위해 모든 모델과 코드를 공개했습니다.



Sora에도 쓰인 DiT(디퓨전 트랜스포머)를 넘어서는 방법이 등장함

DiT 대비 지표도 뛰어나며, 특히 LLM과 똑같은 스케일링 법칙이 명확하게 관찰됨

생성 속도 또한 DiT 대비 훨씬 더 빠름(대략 45배~80배)

북경대와 바이트댄스에서 내놓음

소스코드 및 가중치 오픈소스


78f3c028e2f206a26d81f6e44482726c








자동등록방지

추천 비추천

32

고정닉 11

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2856 설문 주위 눈치 안 보고(어쩌면 눈치 없이) MZ식 '직설 화법' 날릴 것 같은 스타는? 운영자 24/04/29 - -
457752 일반 한 남자의 어록 모음 [37] agi2024갤로그로 이동합니다. 04.19 3050 51
457748 일반 ???: ㅋㅋ 고작 이딴걸로 좋아하네 [13] agi2024갤로그로 이동합니다. 04.19 3105 23
457691 일반 이미 로펌에서 GPT-4 로 변론서 작성중이라는데 ㅋㅋㅋㅋㅋ [13] ㅇㅇ(124.49) 04.19 2663 24
457690 일반 역시 르쿤이형이냐 [12] ㅇㅇ(59.11) 04.19 1926 56
457641 정보 (오피셜) 라마3 곧 추가될 기능들 [15] ㅇㅇ(123.100) 04.19 2596 27
457620 일반 405B 짜리는 GPT-4 터보 걍 좆바르겠노 ㅋㅋ [8] ㅇㅇ(123.100) 04.19 2114 20
457615 일반 라마3 한국어로 쓰고 실망 ㄴㄴ [4] ㅇㅇ(123.100) 04.19 2162 19
457613 일반 챗봇아레나 라마3 성능 돌아버렸네 ㅋㅋㅋㅋㅋㅋㅋㅋ [6] ㅇㅇ(110.145) 04.19 2125 21
457608 정보 라마3 Chatbot arena 리더보드 순위 미쳤노ㅋㅋㅋ [4] ㅇㅇ(123.100) 04.19 1207 19
457522 정보 MS '대화하는 얼굴' VASA-1 작동 영상 [6] ㅇㅇ갤로그로 이동합니다. 04.19 1176 22
457509 정보 오늘 있던 Oai 강연 + 앞로 있을 3개 [12] ㅁㄴㅇㄹ갤로그로 이동합니다. 04.19 1835 23
457496 일반 라마3 400b 성능은 gpt-4보다 훨씬 높을수도 [14] ㅇㅇ(110.145) 04.19 1637 19
457481 정보 chagpt가 특정 단어를 반복하는 이유에 대한 기사가 나왔네 [17] ㅇㅇ갤로그로 이동합니다. 04.19 2221 24
457455 일반 라마3는 충분히 기뻐할만한 일 아님? [15] ㅇㅇ(211.44) 04.19 2313 46
457454 일반 라마 매력봐라 ㅅㅂㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ [14] 아디라스갤로그로 이동합니다. 04.19 3359 33
457432 일반 라마3 아이폰에서 구동 성공 [15] rtOS갤로그로 이동합니다. 04.19 2518 23
457416 일반 라마4 떡밥 [3] 특술람갤로그로 이동합니다. 04.19 1020 22
457400 정보 스탠포드 피셜)) 분야별 ai발전 속도 인덱스 [19] lightvector갤로그로 이동합니다. 04.19 2547 27
457399 정보 메타 실시간 이미지 생성 발표 [9] 특술람갤로그로 이동합니다. 04.19 2695 30
457358 일반 라마3 동양인 혐오하네 ㅇㅇ [19] ㅇㅇ갤로그로 이동합니다. 04.19 3126 33
457357 일반 솔직히 라마 좃도 안기쁘면 개추 ㅋㅋ [20] ㅇㅇ(210.205) 04.19 2789 30
457344 AI창 수노3) 라마가 부른 노래 만들어봄 [8] ㅇㅇ갤로그로 이동합니다. 04.19 1208 17
457310 일반 라마3 70b 사용해볼수있게 허깅쳇에 떳다 [7] ㅇㅇ갤로그로 이동합니다. 04.19 2089 24
457304 정보 찬양하라ㅡMeta. [4] ㅇㅇ(123.100) 04.19 1833 28
457303 정보 라마3에 사용된 인간 주석데이터양 ㄷㄷㄷ [8] ㅇㅇ(123.100) 04.19 2351 20
457301 정보 라마2vs3 발전속도 보기.. [7] ㅇㅇ(123.100) 04.19 1956 21
457300 일반 Meta는 오픈소스 AGI를 위한 데이터센터 구축 중 [12] 모브갤로그로 이동합니다. 04.19 1352 23
457272 정보 오피셜) GPT4 API 사망 [6] ㅇㅇ(123.100) 04.19 3145 32
457260 일반 라마3 400b와 4터보 벤치 [8] ㅇㅇ(175.124) 04.19 1585 16
457254 일반 개념글 빨리 올려라 시발 ㅋㅋ [10] lightvector갤로그로 이동합니다. 04.19 1843 29
457232 일반 GPT4 초 멸망ㅋㅋㅋㅋ [2] ㅇㅇ(123.100) 04.19 2578 22
457213 정보 라마3 벤치마크 [16] ㅇㅇ(211.59) 04.19 1971 22
457172 일반 라마3 70b [5] 특술람갤로그로 이동합니다. 04.18 1731 28
457168 일반 르쿤햄 오늘도 호감 1스택 적립 [5] ㅇㅇ(218.158) 04.18 1353 27
457165 정보 라마3 발표 [15] 특술람갤로그로 이동합니다. 04.18 2678 34
457122 일반 국내는 솔직히 병신맞음 [4] ㅇㅇ(118.235) 04.18 1098 18
457091 정보 MS-오픈AI, EU의 합병 조사 피할 듯..."단순 투자로 결론" [2] ㅇㅇ(182.230) 04.18 949 17
457057 일반 [충격]세계 최초 뇌영상 기술 조작 논란 [28] xdxd333갤로그로 이동합니다. 04.18 2823 24
456979 일반 근데 진짜 빅이슈면 이미 해외에서부터 ㄹ들갑떨긴 함 [4] ㅇㅇ(115.139) 04.18 1009 22
456973 일반 념글 이거 존나웃기네 씨발 ㅋㅋㅋㅋㅋ [10] ㅇㅇ갤로그로 이동합니다. 04.18 3425 31
456946 정보 삼성전자, 업계 최고 속도 LPDDR5X D램 개발 [4] ㅇㅇ(182.230) 04.18 1869 24
456944 일반 싱글벙글 보스턴 다이나믹스 로봇 근황.gif [30] ㅇㅇ­갤로그로 이동합니다. 04.18 3036 29
456934 정보 피터 틸 "AI가 작가보다 수학 덕후들에게 '더 나쁠 것'" [18] 특술람갤로그로 이동합니다. 04.18 2818 26
456923 정보 닉보스트롬 인류미래연구소 문 닫음 [4] 특술람갤로그로 이동합니다. 04.18 1010 20
456922 정보 인텔, 세계 최대의 뉴로모픽 시스템 '할라 포인트' 구축 [9] ㅇㅇ(182.230) 04.18 1505 28
456913 정보 새로운 아틀라스 로봇에 대해 CEO와의 Q&A [11] ㅇㅇ갤로그로 이동합니다. 04.18 1747 23
456890 일반 얀 르쿤의 AI관련 의견에서 감안해야 하는 점은 [33] ㅇㅇ(218.48) 04.18 1721 30
456828 일반 뉴아틀라스 떳다(링크) [43] ㅇㅇ(121.168) 04.17 2664 30
456817 정보 Daniel Kokotajilo, OpenAI 퇴직 [6] ㅇㅇ(125.191) 04.17 1136 20
456805 정보 생성AI가 잡아낸 진단기록 오류, 영상의학과 전문의 못지 않다 [3] ㅇㅇ(182.230) 04.17 1169 22
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2