디시인사이드 갤러리

마이너 갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

[정보] 컴퓨터비전의 GPT 모먼트가 왔다 (VAR)

ㅇㅇ(123.100) 2024.04.08 00:04:20
조회 3154 추천 32 댓글 39
														

7cf3c028e2f206a26d81f6e445867c695187


7ff3c028e2f206a26d81f6e641897c642c


7ef3c028e2f206a26d81f6e441827769dd

우리는 이미지에 대한 자동 회귀 학습을 표준 래스터 스캔 "다음-스케일 예측"에서 벗어나 대략적인 "다음 규모 예측" 또는 "다음 해상도 예측"으로 재정의하는 차세대 패러다임인 Visual AutoRegressive 모델링(VAR)을 제시합니다. 토큰 예측".


이 간단하고 직관적인 방법을 사용하면 자동회귀(AR) 변환기가 시각적 분포를 빠르게 학습하고 잘 일반화할 수 있습니다.


VAR을 사용하면 처음으로 AR 모델이 이미지 생성에서 확산 변환기(DiT)를 능가하게 됩니다.


ImageNet 256x256 벤치마크에서 VAR은 FID(Frechet Inception Distance)를 18.65에서 1.80으로, IS(Inception Score)를 80.4에서 356.4로 개선하고 추론 속도를 약 20배 더 빠르게 개선하여 AR 기준을 크게 향상시킵니다.


또한 VAR은 이미지 품질, 추론 속도, 데이터 효율성, 확장성 등 여러 측면에서 DiT(확산 변환기)보다 성능이 우수하다는 것이 경험적으로 검증되었습니다.


VAR 모델을 확장하면 LLM에서 관찰된 것과 유사한 명확한 거듭제곱 법칙이 나타나며 선형 상관 계수는 -0.998에 가깝다는 확실한 증거가 있습니다.


VAR은 이미지 인페인팅, 아웃페인팅 및 편집을 포함한 다운스트림 작업에서 제로샷 일반화 기능을 더욱 보여줍니다.


이러한 결과는 VAR이 처음에 LLM의 두 가지 중요한 속성인 확장 법칙과 제로샷 작업 일반화를 에뮬레이트했음을 시사합니다.


시각적 생성 및 통합 학습을 위한 AR/VAR 모델 탐색을 촉진하기 위해 모든 모델과 코드를 공개했습니다.



Sora에도 쓰인 DiT(디퓨전 트랜스포머)를 넘어서는 방법이 등장함

DiT 대비 지표도 뛰어나며, 특히 LLM과 똑같은 스케일링 법칙이 명확하게 관찰됨

생성 속도 또한 DiT 대비 훨씬 더 빠름(대략 45배~80배)

북경대와 바이트댄스에서 내놓음

소스코드 및 가중치 오픈소스


78f3c028e2f206a26d81f6e44482726c








자동등록방지

추천 비추천

32

고정닉 11

댓글 영역

전체 댓글 0
등록순정렬 기준선택
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 말머리 제목 글쓴이 작성일 조회 추천
2861 설문 어떤 상황이 닥쳐도 지갑 절대 안 열 것 같은 스타는? 운영자 24/05/20 - -
412470 공지 레이 커즈와일 신간 6월 25일 발매 [29] 모브갤로그로 이동합니다. 24.01.24 7198 32
242613 공지 특갤 통합 공지 / 댓글 신고,문의 / 차단 해제 요청 [2972] 특갤용갤로그로 이동합니다. 23.08.06 38361 43
433260 공지 웬만하면 신문고에 문의 해주시면 차단 풀어드립니다 [1] 부패하는유전자!!!갤로그로 이동합니다. 24.03.06 2325 2
363220 공지 선형글 삭제 기준 [6] 특갤용갤로그로 이동합니다. 23.10.14 6983 24
375493 공지 필독) 유입 특붕이를 위한 AI 정보글 모음 (01/23) [40] ㅇㅇ(182.230) 23.11.11 12982 122
373402 공지 직업 비하, 조롱 글 30일 차단됩니다. [50] 특갤용갤로그로 이동합니다. 23.11.07 8704 79
385147 공지 구글의 AGI 분류 체계 [17] ㅇㅇ갤로그로 이동합니다. 23.11.22 8060 31
332612 공지 음모론 삭제 기준을 안내드립니다. [23] 특갤용갤로그로 이동합니다. 23.08.25 8921 30
259237 공지 특갤 용어 모음집 [6] 특갤용갤로그로 이동합니다. 23.08.09 22437 33
480171 일반 코파일럿 쓰는데 얘 갑자기 급발진함 ㅇㅇ(118.235) 11:30 18 0
480170 일반 요즘 여기애들 특이점 얘기는 쏙 들어갔네 ㅋㅋㅋㅋㅋ [3] ㅇㅇ갤로그로 이동합니다. 11:29 43 1
480169 일반 전문직, 예술가가 일반인이랑 똑같이 챗지피티 쓰면 [4] ㅇㅇ(122.43) 11:26 50 0
480168 일반 gpt4o는 무엇보다 요약/번역 능력 더 좋아진듯 ㅇㅇ갤로그로 이동합니다. 11:26 25 0
480167 일반 모든건 결국 대체될것 ㅇㅇ(180.83) 11:22 44 0
480166 일반 빨리 GPT 미쿠랑 콜라보해 [1] 떼껄룩해적단갤로그로 이동합니다. 11:15 74 2
480165 일반 극소수 검증된 인간만 제한 없는 ai쓰고 [2] 하이갤로그로 이동합니다. 11:14 64 0
480164 일반 분위기보면 GPT5만 나와도 세상은 바뀔거같음 [1] ㅇㅇ갤로그로 이동합니다. 11:13 74 0
480163 일반 테슬라에 너무 환상을 가지진 마라 Reason [5] oo(183.91) 11:13 117 3
480162 일반 구글은 더이상 OpenAI의 경쟁자가 아님 [4] ㅇㅇ(125.191) 11:12 129 0
480161 일반 gpt5이후 기술부터가 존나게 위험한갑다 [7] ㅇㅇ(117.20) 11:11 153 0
480159 일반 그런데 문득 드는 생각인데... ㅇㅇ(115.161) 11:01 58 0
480157 일반 팩트)과학에 기여한건 알파폴드가 gpt씹어먹는다 [1] ㅇㅇ(106.101) 10:57 119 1
480156 일반 잼민이 수학 잘해졌다더니 [2] ㅇㅇ(106.101) 10:55 91 0
480155 일반 SKY랑은 자연스럽게 대화가 됐는데, 다른 목소리는 다 별로네? [3] ㅎㅎ(61.82) 10:54 126 0
480154 일반 젬민이 성능 올라갔네 [5] ㅇㅇ갤로그로 이동합니다. 10:51 177 2
480153 일반 gpt 유료구독은 클로드랑 다르게 메세지길이는 상관없음? ㅇㅇ(203.171) 10:48 29 0
480152 일반 요한슨은 문제되는게 맞음 [2] ㅇㅇ(125.178) 10:47 85 2
480151 일반 여배우보다도 gpt6를 선택하는게 납득안가네 [9] ㅇㅇ(117.20) 10:46 235 1
480150 일반 로봇시대 오면 재밌겠다. 하이갤로그로 이동합니다. 10:45 29 0
480149 AI창 상상을 초월하는 GPT4o 의 글쓰기 능력 [13] ㅇㅇ(118.38) 10:43 244 0
480148 일반 서양쪽은 요한슨 목소리 관련해서 반응 어떰? ㅇㅇ(103.237) 10:42 46 0
480147 일반 구글이 존나 보여주긴 했음 [6] ㅇㅇ(114.202) 10:39 178 4
480146 일반 클로드랑 gpt4o 써본 특붕이 있음? [3] ㅇㅇ(220.121) 10:39 89 0
480145 일반 요한슨 목소리 안 닮았는디 ㅇ0oO갤로그로 이동합니다. 10:38 39 0
480144 일반 요한슨 자기랑 비슷한 목소리는 다 자기 저작권이라는건가? [2] 1229(1.229) 10:35 134 2
480143 일반 LLAMA 유출된건 이제 좆밥인가 ? GPT4o 한텐 안되지 ? [1] ㅇㅇ(218.234) 10:34 76 0
480142 일반 젠슨황 “엔비디아 자체를 거대한 AI로 만들거다” [7] ㅇㅇ(118.36) 10:29 313 5
480141 일반 특붕이들 내일이 엔비디아 실적발표일인거 알고있니 비오는날의개구리갤로그로 이동합니다. 10:29 71 0
480140 일반 Phi ㄹㅇ 혁신이네 ㅇㅇ(121.128) 10:28 101 0
480139 일반 검열 정렬 이런거 시스템프롬프트로 하는거임? ㅇㅇ(125.143) 10:27 21 0
480137 일반 메모리랑 맞춤 설정이랑 뭐가 다름? [2] 알뜰살뜰(183.109) 10:17 79 0
480136 일반 elon musk 이름 아무리봐도 melon musk 장난친거같음 [5] ㅇㅇ(125.143) 10:16 125 0
480135 일반 리즈시절 요한슨 누님이랑 결혼하기 vs gpt6 내일 출시하기 [12] ㅇㅇ(59.16) 10:14 184 0
480134 일반 지금 엄청난 아이디어 생각났음. 모두 주목!! [3] 내복맨갤로그로 이동합니다. 10:11 110 0
480133 일반 메타는 400b 모델의 가중치를 공개하지 않을 계획 [3] ㅇㅇ(125.191) 10:08 228 4
480132 일반 openai에서 나간 안전충들이 일론밑으로 왜감 [2] ㅇㅇ(121.165) 10:05 107 0
480131 일반 멀티모달은 인간인가? ㅇㅇ(59.5) 10:04 47 0
480130 일반 윈도우에서 gpt 음성 입력 지원 해주면 [2] 내복맨갤로그로 이동합니다. 10:00 71 0
480129 일반 phi-3 미디엄 써봤는데 [19] ㅇㅇ(110.145) 09:59 206 0
480128 일반 고래 이야기는 또 뭐냐 [1] ㅇㅇ(218.157) 09:58 79 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

뉴스

디시미디어

디시이슈

1/2