이미지 생성 AI 학습 비용 15분의 1로 줄인 방법을 MIT·어도비가 증명했다

aimatters · 2026.04.03 09:49:33

AI가 이미지를 만들 때 반드시 거쳐야 했던 '준비 단계'가 사라지고 있다. 매사추세츠 공과대학교(MIT)와 어도비(Adobe) 연구팀이 2026년 3월 공동 발표한 논문에서 제안한 유나이트(UNITE)는 이미지 생성 AI의 학습 구조를 근본부터 바꾸는 방식으로, 기존에 두 단계로 나뉘어 있던 학습 과정을 하나로 합친 아키텍처(구조)다. 이 연구는 AI 이미지 생성 모델을 개발하거나 응용하려는 연구자와 개발자뿐 아니라, 더 빠르고 효율적인 AI 도구를 기다리는 모든 사람에게 직접적인 영향을 미친다.

그림1. UNITE 생성형 인코더의 이미지 복원 및 신규 생성 통합 구조 개요

고품질 이미지 생성 AI가 반드시 거쳐야 했던 두 번의 학습

지금까지 대부분의 고품질 이미지 생성 AI는 학습할 때 반드시 두 단계를 거쳐야 했다. 잠재 확산 모델(Latent Diffusion Model, LDM)이란 이미지를 직접 다루지 않고, 이미지를 압축한 '잠재 공간(Latent Space)'이라는 축약된 표현 안에서 노이즈를 제거하며 새 이미지를 만들어내는 방식이다. 이 방식은 고품질 이미지를 효율적으로 만들 수 있어 스테이블 디퓨전(Stable Diffusion)이나 디트(DiT) 같은 주요 모델들이 채택하고 있다.

문제는 학습 순서에 있었다. 먼저 '토크나이저(Tokenizer)'라는 번역기를 따로 학습시켜야 한다. 토크나이저란 원본 이미지를 압축된 숫자 코드(잠재 표현)로 바꾸는 역할을 하는 인코더(Encoder)와 그 코드를 다시 이미지로 복원하는 디코더(Decoder)의 조합이다. 이 번역기가 완성된 뒤에야 비로소 생성 모델을 그 위에 올려 학습을 시작할 수 있었다. 다시 말해, 생성 AI 하나를 만들기 위해 두 개의 별도 학습 작업이 필요했고, 두 번째 단계에서는 첫 번째 단계에서 만든 번역기를 고정한 채로만 작동해야 했다.

이 구조의 본질적 한계는, 이미지를 '생성하는 힘'이 이미지를 '표현하는 방식'을 개선할 수 없다는 점이다. 최종 생성 품질을 높이기 위한 학습 신호가 토크나이저에 전달되지 않아, 두 시스템이 진정한 의미에서 협력하지 못한 것이다.

그림 3. UNITE 학습 구조-동일한 생성형 인코더가 토크나이저와 디노이저 역할을 동시에 수행

토크나이저와 생성기는 본질적으로 같은 문제다

UNITE가 제시하는 핵심 통찰은 단순하면서도 강력하다. 토크나이제이션(Tokenization, 이미지를 압축 코드로 변환)과 생성(Generation, 노이즈에서 이미지를 복원)은 본질적으로 같은 문제의 두 가지 버전이라는 것이다.

이 두 작업의 차이는 '얼마나 많은 정보를 갖고 시작하느냐'에 있다. 토크나이저는 원본 이미지 전체를 보면서 그것을 압축 코드로 만든다. 완전한 정보를 가진 상태에서 코드를 추론하는 것이다. 반면 생성기는 순수한 노이즈(무작위 잡음)에서 시작해 텍스트나 클래스 정보만 참고하면서 이미지를 만들어낸다. 거의 아무 정보도 없는 상태에서 코드를 추론하는 것이다. 둘 다 결국 '잠재 공간 안에서 올바른 코드를 찾아내는 문제'라는 점에서 같다.

이 인식을 바탕으로 연구팀은 생성적 인코더(Generative Encoder, GE)라는 단일 네트워크를 설계했다. 이 네트워크는 같은 파라미터(학습된 가중치)를 공유하면서, 한 번은 이미지를 받아 코드를 만드는 토크나이저로 작동하고, 또 한 번은 노이즈가 섞인 코드를 받아 깨끗한 코드를 예측하는 디노이저(Denoiser)로 작동한다. 하나의 뇌가 두 가지 역할을 동시에 익히는 구조다.

실생활로 비유하자면, 기존 방식은 '번역가'를 먼저 별도로 고용해 훈련시킨 뒤, 그 번역가가 번역한 언어만을 사용해 '작가'를 따로 훈련시키는 것과 같다. UNITE는 번역과 창작을 동시에 배우는 한 명의 전문가를 처음부터 키우는 방식이다.

파라미터 3분의 1로 기존 모델을 넘어선 FID 2.12

연구팀은 이미지 생성 품질을 측정하는 대표적 지표인 FID(Fréchet Inception Distance, 프레셰 인셉션 거리)를 기준으로 성능을 평가했다. FID는 숫자가 낮을수록 생성된 이미지가 실제 이미지에 가깝다는 뜻이다. 이미지넷(ImageNet) 256×256 데이터셋 기준으로, UNITE 기반 모델(Base)이 FID 2.12를 기록했고, 대형 모델(Large)은 FID 1.73을 달성했다.

이 숫자가 의미 있는 이유는 비교 대상을 보면 분명해진다. 기존 두 단계 방식의 대표 모델인 디트-XL/2(DiT-XL/2)는 FID 2.27, SiT-XL/2는 FID 2.06이었다. UNITE는 이 두 모델보다 적은 파라미터(모델 크기)와 유사한 계산량(FLOPs)으로 더 나은 성능을 냈다. 구체적으로 UNITE-B는 파라미터 수 2억 1700만 개로, 7억 2400만 개를 사용하는 DiT-XL/2보다 약 3분의 1 수준이다.

여기서 주목할 점은 UNITE가 주요 생성 모델 학습에서는 외부 인코더 없이 진행했다는 것이다. 최근 고성능 모델 상당수는 DINOv2와 같은 자기지도학습(Self-Supervised Learning) 인코더를 추가 감독 신호로 활용한다. DINOv2 하나를 사전 학습시키는 데에만 A100 GPU 기준 약 2만 7000시간, 약 10²² FLOPs에 달하는 계산이 필요하다. UNITE는 이 비용을 완전히 없애면서도 그에 준하는 성능에 도달했다. 이 차이는 의료 영상, 분자 구조, 위성 사진처럼 사전 학습 모델이 없는 분야에서 특히 중요한 의미를 갖는다.

재구성과 생성, 두 목표의 충돌이 더 강한 모델을 만든다

UNITE의 학습 과정에서 흥미로운 현상이 관찰됐다. 재구성(복원) 손실과 생성(디노이징) 손실이 항상 함께 줄어들지 않는다는 것이다. 생성 품질이 나아질 때 오히려 디노이징 손실이 높아지는 구간이 존재한다.

연구팀은 이를 '적대적 역학(Adversarial Dynamics)'이라고 표현했다. 두 목표가 서로 경쟁하면서 잠재 공간을 더 풍부하고 단단하게 만들어간다는 의미다. 재구성 목표는 인코더에게 이미지의 세밀한 정보를 최대한 보존하라고 압박한다. 반면 생성 목표는 그 정보가 노이즈에 의해 쉽게 무너지지 않도록 표현을 강건하게 만들라고 요구한다. 이 두 압력이 균형을 찾는 과정에서 어느 한 목표만 최적화할 때보다 더 나은 잠재 공간이 형성된다.

이는 마치 같은 직원이 '정확한 보고서 작성'과 '외부 질문에 즉시 답변'이라는 두 가지 업무를 동시에 담당할 때, 처음에는 두 업무가 충돌하는 것처럼 보여도 시간이 지나면서 두 업무 모두에 최적화된 사고방식을 익히게 되는 것과 유사하다.

또한 연구팀은 가중치를 공유하지 않고 인코더와 디노이저를 별도 네트워크로 분리해 학습한 비교 실험에서, 두 네트워크가 자연스럽게 유사한 내부 표현을 발달시킨다는 사실을 CKA(중심 커널 정렬, Centered Kernel Alignment)라는 측정 방법으로 확인했다. 이는 토크나이제이션과 생성이 본질적으로 정렬된 과제라는 논문의 주장을 실험적으로 뒷받침한다.

이미지를 넘어 분자 설계까지, 사전 학습 없이도 뛰어난 수준

UNITE의 가장 조용하지만 강력한 함의는 이미지 생성이 아닌 영역에서 나온다. 연구팀은 QM9라는 소분자(Small Molecule) 데이터셋에 UNITE를 적용해, 기존 최고 성능 모델인 ADiT를 넘어서는 결과를 달성했다. 재구성 정확도(Match Rate)에서 99.37%를 기록해 ADiT의 97.20%를 뛰어넘었고, 생성 분자의 고유성(Uniqueness)에서도 99.71%로 ADiT의 97.76%를 앞섰다.

분자 생성 분야에는 이미지의 DINOv2에 해당하는 강력한 사전 학습 인코더가 존재하지 않는다. 기존 방식이라면 이 분야에서 고품질 잠재 확산 모델을 구축하기 위해 별도의 인코더를 처음부터 만들고 학습시키는 선행 작업이 필요했다. UNITE는 그 과정 없이 단일 학습만으로 최고 수준의 모델을 능가하는 성능에 도달했다. 같은 원리가 결정 구조 생성(Crystal Generation) 실험인 MP20 데이터셋에서도 경쟁력 있는 성능을 보였다.

이는 UNITE가 단순히 이미지 생성 효율을 높인 것을 넘어, 사전 학습 인코더 없이도 잠재 확산 모델을 처음부터 구축할 수 있는 보편적 프레임워크로 기능할 수 있음을 시사한다. 신약 후보 물질 탐색, 신소재 발견, 단백질 구조 예측 등 데이터가 제한적이거나 고품질 사전 학습 모델이 없는 과학 분야에서 이 접근법이 실질적인 돌파구가 될 가능성이 있다.

단일 학습 구조의 가능성과 남겨진 과제

UNITE의 성과는 분명하지만, 몇 가지 유보할 지점도 있다. 외부 감독 없이 처음부터 학습하는 구조가 충분히 대규모로 확장되었을 때도 현재의 이점을 유지할 수 있는지는 아직 확인이 필요하다. 논문이 비교한 최상위 성능 모델들, 예컨대 LightningDiT나 DDT는 여전히 DINOv2 기반 감독을 활용하며 FID 1.35~1.26 수준을 기록하고 있어 UNITE와의 차이가 여전히 존재한다.

또한 생성적 인코더의 선형 탐침(Linear Probing) 정확도가 약 30%에 머물러 있다는 점은, 잠재 표현이 판별적 과제에서 얼마나 유용할지 아직 불분명하다는 신호일 수 있다. 연구팀 스스로도 시각-언어 모델(VLM) 환경에서의 평가가 더 적합한 기준이 될 수 있다고 언급했다. 이 아키텍처가 생성 이상의 역할, 즉 이해와 추론이 요구되는 멀티모달 시스템으로 확장될 수 있는지는 두고 볼 필요가 있다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. UNITE는 기존 이미지 생성 AI와 무엇이 다른가요? UNITE는 이미지를 압축 코드로 바꾸는 토크나이저 학습과 그 코드에서 새 이미지를 만드는 생성 모델 학습을 하나의 과정으로 합친 AI입니다. 기존 모델은 두 단계를 순서대로 별도로 학습해야 했지만, UNITE는 같은 네트워크가 두 역할을 동시에 익힙니다.

Q. FID 수치가 낮을수록 좋다고 하는데, UNITE의 성능은 실제로 어느 수준인가요? FID(프레셰 인셉션 거리)는 생성된 이미지가 실제 이미지와 얼마나 비슷한지 나타내는 수치로, 낮을수록 좋습니다. UNITE 기본 모델은 이미지넷 256×256 기준 FID 2.12를 달성했으며, 이는 기존 두 단계 방식의 대표 모델인 DiT-XL/2(FID 2.27)보다 우수한 수준입니다.

Q. UNITE가 이미지 외에 다른 분야에도 활용될 수 있나요? 네, 연구팀은 분자 구조 생성 데이터셋인 QM9에 UNITE를 적용해 기존 최고 모델을 뛰어넘는 성능을 확인했습니다. 사전 학습된 외부 인코더가 없는 신약 개발, 신소재 발견, 단백질 구조 예측 등 과학 분야에서도 활용 가능성이 있습니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: End-to-End Training for Unified Tokenization and Latent Denoising

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

인기 기사

번호	제목	글쓴이	작성일	조회	추천
설문	주변 사람 잘 챙기고 인맥 관리 잘 할 것 같은 스타는?	운영자	26/03/30	-	-
2331	“대화형 아닌 24시간 스스로 일하는 AI”… 앤트로픽, 자율 에이전트 ‘콘웨이’ 비밀 테스트 중	aimatters	18:04	9	0
2330	코그니칩, AI로 반도체 설계 혁신… 6,000만 달러 투자 유치	aimatters	18:04	4	0
2329	2026년 4월구글 제미나이 할인 정보 총정리! [3]	aimatters	16:56	536	1
2328	AI 학습 속도 2배 높이는 '메모리 다이어트' 기술 나왔다	aimatters	16:56	14	0
2327	사진 한 장으로 3D 장면을 만든다, AI 기하학 모델의 놀라운 변신	aimatters	09:49	17	0
	이미지 생성 AI 학습 비용 15분의 1로 줄인 방법을 MIT·어도비가 증명했다 [9]	aimatters	09:49	704	0
2324	AI가 조용히 당신의 일자리를 재설계하고 있다	aimatters	09:49	19	0
2323	메타, 도수 렌즈 우선의 레이밴 메타 2세대 AI 안경 신모델 출시… 소매점에서도 판매한다	aimatters	09:49	11	0
2322	자기파괴적 문구 입력하면 AI가 개입한다… 오픈AI·앤트로픽, 극단주의 사용자 전환 도구 도입 추진	aimatters	09:49	17	0
2321	반도체 접었던 인텔, 아일랜드 Fab 34 공장 지분 142억 달러에 재매입… AI 시대 반도체 자주권 확보	aimatters	09:49	10	0
2320	오픈AI, 테크 미디어 기업 TBPN 인수… AI 기업 최초의 미디어 인수합병	aimatters	09:49	6	0
2319	알리바바, 에이전틱 코딩 특화 차세대 AI 모델 'Qwen3.6-Plus' 공식 출시	aimatters	09:49	10	0
2318	오픈AI 2차 시장 주식 수요 급감… 투자자들 앤트로픽으로 대거 이동 중	aimatters	09:49	8	0
2317	책상 위에 데이터센터를?…에이수스, AI 슈퍼컴퓨팅 시스템 'ExpertCenter Pro ET900N G3' 공개	aimatters	04.02	14	0
2316	퍼플렉시티 AI, 사용자 대화 메타·구글에 무단 공유 혐의로 집단소송 피	aimatters	04.02	17	0
2315	스페이스X, AI 자회사 xAI 합병 후 IPO 기밀 신청…기업 가치 1.75조 달러 목표	aimatters	04.02	16	0
2314	엔비디아, 마벨 테크놀로지에 20억 달러 전략 투자…NVLink Fusion으로 AI 인프라 패권 강화	aimatters	04.02	16	0
2313	AI가 사람 움직임을 '언어'처럼 이해하게 됐다	aimatters	04.02	16	0
2312	"의자를 책상 앞에"라는 말만으로 AI가 3D 공간을 완벽하게 재배치한다	aimatters	04.02	13	0
2311	챗GPT, 위치 공유 기능 도입…"내 근처 카페" 물으면 정확한 답 돌아온다	aimatters	04.02	21	0
2310	알리바바, Qwen 3.5 Omni 출시…텍스트·음성·영상 동시 처리하는 멀티모달 AI	aimatters	04.02	14	0
2309	앤트로픽 코워크 에이전트, 출시 초반 클로드 코드 능가하는 채택 속도…기업 시장 공략	aimatters	04.02	14	0
2308	오픈AI, 185조 6,840억 원 역대 최대 펀딩 완료…기업 가치 약 1,297조 원 달성	aimatters	04.02	20	0
2307	AI에게 '자신 없으면 나중에 써'라고 했더니, 속도가 10배 빨라졌다	aimatters	04.02	13	0
2306	AI가 긴 글을 읽다 '졸기' 시작하는 문제, 메모리로 해결됐다	aimatters	04.01	38	1
2305	AI가 가짜 영상으로 스스로 공부한다, 라벨링 없이 동작 인식 정확도 7% 올린 방법	aimatters	04.01	80	0
2304	AI로 상담 시간 20% 줄어든 HR 플랫폼, 중소기업이 놓친 자동화의 진짜 효과 [1]	aimatters	04.01	962	3
2303	소프트뱅크, 오픈AI에 2차 100억 달러 투자금 납입... 총 투자 계획 순항 [2]	aimatters	04.01	938	3
2302	오픈AI, 대학생 대상 '코덱스 크리에이터 챌린지' 개최... AI 크레딧 100달러 지원 [1]	aimatters	04.01	36	0
2301	앤트로픽 클로드 코드, npm 소스맵 오류로 소스코드 51만 줄 노출	aimatters	04.01	23	0
2300	음성 AI의 역설: 접근성 높아지자 성차별도 함께 증가했다	aimatters	03.31	23	0
2299	강바닥 모래와 자갈, AI가 레이저로 구분한다: 헬기 띄워 3차원 지도 완성	aimatters	03.31	26	0
2298	AI 건강 챗봇, 쏟아지지만… "효과 검증은 아직"	aimatters	03.31	23	0
2297	메타, AI 학습 데이터 토렌트 사용 혐의 소송서 대법원 판결 방패 삼아 반격	aimatters	03.31	24	0
2296	앤트로픽 광란의 3월… 한 달 14개 이상 업데이트 발표	aimatters	03.31	26	0
2295	"AI가 내 상사라고요?" 미국인 15%, AI 직속 상관 수용 의사 밝혀	aimatters	03.31	32	0
2294	보험 산업이 AI로 재편되는 이유, 처리 속도 40% 단축이 만든 격변	aimatters	03.31	24	0
2293	TTA, 전문가에서 대학생까지 차세대 AI 핵심 인재 발굴의 장 열다	aimatters	03.31	20	0
2292	ChatGPT, 월 광고 수익 1억 달러 돌파…4월 셀프서브 광고 플랫폼 출시	aimatters	03.31	27	0
2291	델 테크놀로지스, AI 시대 기업용 PC 전면 혁신…'델 프로' 신제품 10종 한꺼번에 쏟아냈다	aimatters	03.30	27	0
2290	앤트로픽 경제 지수, AI 혜택은 이미 불평등하게 분배되고 있다	aimatters	03.30	23	0
2289	챗봇은 죽었다, 2026년 AI가 고객 경험을 완전히 다시 쓰는 5가지 방법	aimatters	03.30	1363	2
2288	AI가 결제 버튼을 대신 누르는 시대, 결제 산업은 어떻게 바뀌나	aimatters	03.30	27	0
2287	유튜브 추천 AI가 광고 수익까지 챙긴다, 구글이 공개한 '돈 버는 추천 알고리즘'	aimatters	03.30	48	0
2286	앤트로픽, 차원이 다른 성능 차세대 AI 모델 '클로드 미토스' 유출	aimatters	03.30	35	0
2285	앤트로픽 클로드 유료 구독자, 2026년 들어 두 배 이상 급증	aimatters	03.30	22	0
2284	“안경도 카메라 달린 펜도 아니다” 전 애플 디자이너가 만드는 AI 인터페이스의 비밀	aimatters	03.30	24	0
2283	오픈AI가 SORA를 접으며 준비한 것은 피지컬 AI와 '스퍼드(Spud)'	aimatters	03.30	25	0
2282	코딩 몰라도 내 챗봇 뚝딱… 제미나이·클로드·챗GPT 한 권에 담았다	aimatters	03.27	105	0
2281	시리에서 챗GPT∙클로드∙제미나이 쓴다...iOS 27에서 AI 어시스턴트 개방 [2]	aimatters	03.27	1016	1

최근 방문

즐겨찾기

즐겨찾기 갤러리

이미지 올리기 이용안내

갤러리 이슈박스, 최근방문 갤러리

연관 갤러리

개념글 리스트

차단하기

[AI 매터스 갤러리]

갤러리 본문 영역

추천 비추천

댓글 영역

① NFT 발행

② NFT 구매

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

페이지 이동

오른쪽 컨텐츠 영역

알림 설정

알림

디시콘 리스트

디시콘

디시콘 검색결과(0)

인기 디시콘