컴퓨터비전의 GPT 모먼트가 왔다 (VAR) - 특이점이 온다 마이너 갤러리

특이점이 온다 갤러리
마이너

기술적 특이점에 대해 의논하고 그와 관련된 과학 기술 정보와 소식을 공유하는 갤러리입니다. *갤러리 이름은 동명의 레이 커즈와일의 저서 <특이점이 온다 (The singularity is near)>를 의미합니다.

매니저

특갤용(118wshxhtx5h)

부매니저

ㅇㅇ(hamaster) 부패하는유전자!!!(sansss20…) 은바다(nmra3fmz…)

개설일

2019-08-01

[정보/뉴스] 컴퓨터비전의 GPT 모먼트가 왔다 (VAR)

ㅇㅇ(123.100) 2024.04.08 00:04:20

조회 3157 추천 32 댓글 39

7cf3c028e2f206a26d81f6e445867c695187

7ff3c028e2f206a26d81f6e641897c642c

7ef3c028e2f206a26d81f6e441827769dd

우리는 이미지에 대한 자동 회귀 학습을 표준 래스터 스캔 "다음-스케일 예측"에서 벗어나 대략적인 "다음 규모 예측" 또는 "다음 해상도 예측"으로 재정의하는 차세대 패러다임인 Visual AutoRegressive 모델링(VAR)을 제시합니다. 토큰 예측".

이 간단하고 직관적인 방법을 사용하면 자동회귀(AR) 변환기가 시각적 분포를 빠르게 학습하고 잘 일반화할 수 있습니다.

VAR을 사용하면 처음으로 AR 모델이 이미지 생성에서 확산 변환기(DiT)를 능가하게 됩니다.

ImageNet 256x256 벤치마크에서 VAR은 FID(Frechet Inception Distance)를 18.65에서 1.80으로, IS(Inception Score)를 80.4에서 356.4로 개선하고 추론 속도를 약 20배 더 빠르게 개선하여 AR 기준을 크게 향상시킵니다.

또한 VAR은 이미지 품질, 추론 속도, 데이터 효율성, 확장성 등 여러 측면에서 DiT(확산 변환기)보다 성능이 우수하다는 것이 경험적으로 검증되었습니다.

VAR 모델을 확장하면 LLM에서 관찰된 것과 유사한 명확한 거듭제곱 법칙이 나타나며 선형 상관 계수는 -0.998에 가깝다는 확실한 증거가 있습니다.

VAR은 이미지 인페인팅, 아웃페인팅 및 편집을 포함한 다운스트림 작업에서 제로샷 일반화 기능을 더욱 보여줍니다.

이러한 결과는 VAR이 처음에 LLM의 두 가지 중요한 속성인 확장 법칙과 제로샷 작업 일반화를 에뮬레이트했음을 시사합니다.

시각적 생성 및 통합 학습을 위한 AR/VAR 모델 탐색을 촉진하기 위해 모든 모델과 코드를 공개했습니다.

Sora에도 쓰인 DiT(디퓨전 트랜스포머)를 넘어서는 방법이 등장함

DiT 대비 지표도 뛰어나며, 특히 LLM과 똑같은 스케일링 법칙이 명확하게 관찰됨

생성 속도 또한 DiT 대비 훨씬 더 빠름(대략 45배~80배)

북경대와 바이트댄스에서 내놓음

소스코드 및 가중치 오픈소스

78f3c028e2f206a26d81f6e44482726c

고정닉 11

원본 첨부파일 4본문 이미지 다운로드

전체 댓글 0개

등록순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	말머리	제목	글쓴이	작성일	조회	추천
2864	설문	비난 여론에도 뻔뻔하게 잘 살 것 같은 스타는?	운영자	24/06/03	-	-
456804	정보/ 정보/뉴스	"구글도 AI 슈퍼컴퓨터에 1000억달러 이상 투자할 것" [3]	ㅇㅇ(182.230)	04.17	1010	23
456803	정보/ 정보/뉴스	"AI 논문 표절 심각"…수백만명이 논문 작성에 생성 AI 활용 [5]	ㅇㅇ(182.230)	04.17	1772	16
456800	정보/ 정보/뉴스	MS, UAE G42에 2조 투자로 이사회 합류..."중국 완전 차단" [2]	ㅇㅇ(182.230)	04.17	960	16
456776	일반	한국은 알엔디를 너무 무작정 부풀렸음 [23]	ㅇㅇ(121.168)	04.17	1871	23
456768	정보/ 정보/뉴스	한국, AI 특허 수는 1위지만 작년 개발 모델 없고 인재 유출 [18]	니지카엘	04.17	1135	11
456763	정보/ 정보/뉴스	예쁜꼬마선충과 인간의 뇌 부피 간접 비교 [19]	ㅇㅇ(182.230)	04.17	1976	16
456734	정보/ 정보/뉴스	뇌에 '바코드' 새겨 일시 기억 저장한다 [13]	ㅇㅇ(182.230)	04.17	2594	20
456703	정보/ 정보/뉴스	TransformerFAM: 피드백 주의는 작업 메모리입니다. [12]	특술람	04.17	1020	14
456679	AI창 AI창작	AI야 케이크 위에 앉은 미소녀 그려줘 [17]	ㅇㅇ	04.17	1830	14
456642	일반	펌) 생식기 실험을 통한 AI 인지능력 테스트 [19]	agi2024	04.17	2912	27
456611	일반	개시발 근들갑 병신 원툴새기들 트위터 똥글은 그만퍼와라 [16]	ㅇㅇ(14.45)	04.17	1984	49
456604	일반	념글 레데리2 클리어 근들갑 같은데 [13]	ㅇㅇ(221.160)	04.16	2413	22
456599	정보/ 정보/뉴스	보스턴 다이내믹스 - 유압식 아틀라스와의 작별 [26]	SGG	04.16	2291	19
456584	정보/ 정보/뉴스	MetaAI 퇴사자, 새로운 회사 설립 [2]	ㅇㅇ(118.235)	04.16	1818	19
456567	일반	LLM 훈련비용 7년 새 20만배 이상 증가 [14]	ㅇㅇ(125.142)	04.16	1966	14
456565	정보/ 정보/뉴스	어도비, 동영상 편집기 '프리미어'에 '소라' 등 결합 예정 [17]	ㅇㅇ(182.230)	04.16	1732	23
456561	정보/ 정보/뉴스	레카, 새로운 LMM '코어' 출시..."일부 성능서 GPT-4 능가" [8]	ㅇㅇ(182.230)	04.16	1315	16
456559	정보/ 정보/뉴스	오픈AI, 1년 만에 직원수 2배 증가..."올말에는 1500명 넘을 것 [7]	ㅇㅇ(182.230)	04.16	1560	17
456558	정보/ 정보/뉴스	지난해 전 세계 파운데이션 모델 149개 출시 [7]	ㅇㅇ(182.230)	04.16	941	13
456557	일반	네옴시티 완전 망한거 알고있냐? [40]	빅모드	04.16	3266	31
456554	정보/ 정보/뉴스	"지금까지 리뷰한 최악의 제품"...Ai 핀 리뷰로 떠들썩 [10]	ㅇㅇ(182.230)	04.16	1735	11
456553	정보/ 정보/뉴스	"챗GPT로 게임 '레드 데드 리뎀션 2' 클리어 [14]	ㅇㅇ(182.230)	04.16	2338	15
456476	일반	할아버지가 특이점 와봤자 다른게 없다고한다. [21]	ㅇㅇ(218.233)	04.16	1123	21
456470	일반	"박사 과정에서 수십억 년이 걸렸을 일을 우리는 1년 만에 해냈습니다" [13]	ㅇㅇ(221.157)	04.16	1321	13
456463	정보/ 정보/뉴스	인터넷속도 176만배 빠르게 하는 기술 개발됨 [47]	ㅇㅇ(210.178)	04.16	2507	17
456461	일반	인디게임 개발자로써, GPT는 충분히 가치가 있다. [19]	ㅇㅇ(116.34)	04.16	2570	24
456443	일반	머스크 스페샬 [8]	ㅇㅇ(222.101)	04.16	635	11
456425	일반	3대 십새끼 어록 모음 [12/1]	ㅇㅇ	04.16	2310	34
456424	정보/ 정보/뉴스	압축은 지능을 선형적으로 나타냅니다. [4]	특술람	04.16	709	23
456421	일반	너넨 살아보니 노력 할만 하더냐? [24]	ㅇㅇ(59.9)	04.16	802	13
456412	일반	인류를 위해 안 까고있다 하면 돌천지랑 뭐가다르냐 [3]	ㅇㅇ(106.101)	04.16	369	10
456401	일반	아가리 털드만이 마케팅하러 다닌다 (X) [3]	ㅇㅇ	04.16	337	12
456394	정보/ 정보/뉴스	마이크로소프트 오픈소스 모델 Wizard LM2 공개 [10]	lightvector	04.16	1516	25
456384	정보/ 정보/뉴스	(오늘의 입털기)샘알트만- 당신들을 찍어누를 것 [31]	ㅇㅇ(118.235)	04.16	2535	24
456370	정보/ 정보/뉴스	일본에 자리 잡은 사카나 AI "기업 관심 집중...아직 경쟁자 없어" [2]	ㅇㅇ(182.230)	04.16	513	12
456363	일반	생각해보면 모든 행복의 근원은.. [6]	ㅇㅇ	04.16	1706	23
456347	역노화	내 몸에 새로운 간을 키운다...간이식 대체할 림프절 간세포 이식술 [25]	ㅇㅇ	04.16	1936	25
456321	일반	ㄹㅇ 나도 현.직자인데 [8]	ㅇㅇ	04.15	982	14
456319	일반	오늘자 얀르쿤 트윗: 25년도까지 AGI 불가능 [12]	ㅇㅇ(112.144)	04.15	885	11
456310	일반	산수문제 하나 풀고 가실게요 (gpt4 재평가) [9]	mahogany	04.15	2120	21
456297	일반	라마3 곧 발표예정이라함 [9]	ㅇㅇ(125.191)	04.15	2182	26
456204	정보/ 정보/뉴스	스테이블 디퓨전 만든 CEO 근황 [11]	ㅇㅇ(121.132)	04.15	3356	26
456178	정보/ 정보/뉴스	오픈AI, 아시아 최초 사무소인 OpenAI Japan 설립 [28]	월코존버	04.15	2412	22
455877	정보/ 정보/뉴스	엔트로픽 CEO, ASL-4는 2025~2028 사이에 일어날 수 있다 [14]	ㅇㅇ(218.52)	04.14	983	12
455701	정보/ 정보/뉴스	다트머스 연구진은 현대 AI와 치료 앱을 융합하려고 합니다. [12]	ㅇㅇ	04.14	1418	15
455985	정보/ 정보/뉴스	미스트랄 8x22b성능은 오픈소스중최고 mmlu 77.3 [11]	ㅇㅇ(149.88)	04.14	1490	15
456113	정보/ 정보/뉴스	2024년 가장 많이 사용되는 AI 플랫폼 20개는 [9]	ㅇㅇ(182.230)	04.15	2563	21
455398	일반	페이팔ceo 시발년아 [16]	ㅇㅇ(14.53)	04.13	2727	20
456112	일반	알트만 스캠이라면 영악한게 , 5~10년안에 올지도 모른다 [2]	ㅇㅇ(118.129)	04.15	545	10
456111	정보/ 정보/뉴스	"기존 벤치마크 한계 도달"...새로운 LLM 평가 수단 속속 등장 [4]	ㅇㅇ(182.230)	04.15	1749	13