AI가 이미지를 만들 때 반드시 거쳐야 했던 '준비 단계'가 사라지고 있다. 매사추세츠 공과대학교(MIT)와 어도비(Adobe) 연구팀이 2026년 3월 공동 발표한 논문에서 제안한 유나이트(UNITE)는 이미지 생성 AI의 학습 구조를 근본부터 바꾸는 방식으로, 기존에 두 단계로 나뉘어 있던 학습 과정을 하나로 합친 아키텍처(구조)다. 이 연구는 AI 이미지 생성 모델을 개발하거나 응용하려는 연구자와 개발자뿐 아니라, 더 빠르고 효율적인 AI 도구를 기다리는 모든 사람에게 직접적인 영향을 미친다.
그림1. UNITE 생성형 인코더의 이미지 복원 및 신규 생성 통합 구조 개요
그림1. UNITE 생성형 인코더의 이미지 복원 및 신규 생성 통합 구조 개요
고품질 이미지 생성 AI가 반드시 거쳐야 했던 두 번의 학습
지금까지 대부분의 고품질 이미지 생성 AI는 학습할 때 반드시 두 단계를 거쳐야 했다. 잠재 확산 모델(Latent Diffusion Model, LDM)이란 이미지를 직접 다루지 않고, 이미지를 압축한 '잠재 공간(Latent Space)'이라는 축약된 표현 안에서 노이즈를 제거하며 새 이미지를 만들어내는 방식이다. 이 방식은 고품질 이미지를 효율적으로 만들 수 있어 스테이블 디퓨전(Stable Diffusion)이나 디트(DiT) 같은 주요 모델들이 채택하고 있다.
문제는 학습 순서에 있었다. 먼저 '토크나이저(Tokenizer)'라는 번역기를 따로 학습시켜야 한다. 토크나이저란 원본 이미지를 압축된 숫자 코드(잠재 표현)로 바꾸는 역할을 하는 인코더(Encoder)와 그 코드를 다시 이미지로 복원하는 디코더(Decoder)의 조합이다. 이 번역기가 완성된 뒤에야 비로소 생성 모델을 그 위에 올려 학습을 시작할 수 있었다. 다시 말해, 생성 AI 하나를 만들기 위해 두 개의 별도 학습 작업이 필요했고, 두 번째 단계에서는 첫 번째 단계에서 만든 번역기를 고정한 채로만 작동해야 했다.
이 구조의 본질적 한계는, 이미지를 '생성하는 힘'이 이미지를 '표현하는 방식'을 개선할 수 없다는 점이다. 최종 생성 품질을 높이기 위한 학습 신호가 토크나이저에 전달되지 않아, 두 시스템이 진정한 의미에서 협력하지 못한 것이다.
그림 3. UNITE 학습 구조-동일한 생성형 인코더가 토크나이저와 디노이저 역할을 동시에 수행
그림 3. UNITE 학습 구조-동일한 생성형 인코더가 토크나이저와 디노이저 역할을 동시에 수행
토크나이저와 생성기는 본질적으로 같은 문제다
UNITE가 제시하는 핵심 통찰은 단순하면서도 강력하다. 토크나이제이션(Tokenization, 이미지를 압축 코드로 변환)과 생성(Generation, 노이즈에서 이미지를 복원)은 본질적으로 같은 문제의 두 가지 버전이라는 것이다.
이 두 작업의 차이는 '얼마나 많은 정보를 갖고 시작하느냐'에 있다. 토크나이저는 원본 이미지 전체를 보면서 그것을 압축 코드로 만든다. 완전한 정보를 가진 상태에서 코드를 추론하는 것이다. 반면 생성기는 순수한 노이즈(무작위 잡음)에서 시작해 텍스트나 클래스 정보만 참고하면서 이미지를 만들어낸다. 거의 아무 정보도 없는 상태에서 코드를 추론하는 것이다. 둘 다 결국 '잠재 공간 안에서 올바른 코드를 찾아내는 문제'라는 점에서 같다.
이 인식을 바탕으로 연구팀은 생성적 인코더(Generative Encoder, GE)라는 단일 네트워크를 설계했다. 이 네트워크는 같은 파라미터(학습된 가중치)를 공유하면서, 한 번은 이미지를 받아 코드를 만드는 토크나이저로 작동하고, 또 한 번은 노이즈가 섞인 코드를 받아 깨끗한 코드를 예측하는 디노이저(Denoiser)로 작동한다. 하나의 뇌가 두 가지 역할을 동시에 익히는 구조다.
실생활로 비유하자면, 기존 방식은 '번역가'를 먼저 별도로 고용해 훈련시킨 뒤, 그 번역가가 번역한 언어만을 사용해 '작가'를 따로 훈련시키는 것과 같다. UNITE는 번역과 창작을 동시에 배우는 한 명의 전문가를 처음부터 키우는 방식이다.
파라미터 3분의 1로 기존 모델을 넘어선 FID 2.12
연구팀은 이미지 생성 품질을 측정하는 대표적 지표인 FID(Fréchet Inception Distance, 프레셰 인셉션 거리)를 기준으로 성능을 평가했다. FID는 숫자가 낮을수록 생성된 이미지가 실제 이미지에 가깝다는 뜻이다. 이미지넷(ImageNet) 256×256 데이터셋 기준으로, UNITE 기반 모델(Base)이 FID 2.12를 기록했고, 대형 모델(Large)은 FID 1.73을 달성했다.
이 숫자가 의미 있는 이유는 비교 대상을 보면 분명해진다. 기존 두 단계 방식의 대표 모델인 디트-XL/2(DiT-XL/2)는 FID 2.27, SiT-XL/2는 FID 2.06이었다. UNITE는 이 두 모델보다 적은 파라미터(모델 크기)와 유사한 계산량(FLOPs)으로 더 나은 성능을 냈다. 구체적으로 UNITE-B는 파라미터 수 2억 1700만 개로, 7억 2400만 개를 사용하는 DiT-XL/2보다 약 3분의 1 수준이다.
여기서 주목할 점은 UNITE가 주요 생성 모델 학습에서는 외부 인코더 없이 진행했다는 것이다. 최근 고성능 모델 상당수는 DINOv2와 같은 자기지도학습(Self-Supervised Learning) 인코더를 추가 감독 신호로 활용한다. DINOv2 하나를 사전 학습시키는 데에만 A100 GPU 기준 약 2만 7000시간, 약 10²² FLOPs에 달하는 계산이 필요하다. UNITE는 이 비용을 완전히 없애면서도 그에 준하는 성능에 도달했다. 이 차이는 의료 영상, 분자 구조, 위성 사진처럼 사전 학습 모델이 없는 분야에서 특히 중요한 의미를 갖는다.
재구성과 생성, 두 목표의 충돌이 더 강한 모델을 만든다
UNITE의 학습 과정에서 흥미로운 현상이 관찰됐다. 재구성(복원) 손실과 생성(디노이징) 손실이 항상 함께 줄어들지 않는다는 것이다. 생성 품질이 나아질 때 오히려 디노이징 손실이 높아지는 구간이 존재한다.
연구팀은 이를 '적대적 역학(Adversarial Dynamics)'이라고 표현했다. 두 목표가 서로 경쟁하면서 잠재 공간을 더 풍부하고 단단하게 만들어간다는 의미다. 재구성 목표는 인코더에게 이미지의 세밀한 정보를 최대한 보존하라고 압박한다. 반면 생성 목표는 그 정보가 노이즈에 의해 쉽게 무너지지 않도록 표현을 강건하게 만들라고 요구한다. 이 두 압력이 균형을 찾는 과정에서 어느 한 목표만 최적화할 때보다 더 나은 잠재 공간이 형성된다.
이는 마치 같은 직원이 '정확한 보고서 작성'과 '외부 질문에 즉시 답변'이라는 두 가지 업무를 동시에 담당할 때, 처음에는 두 업무가 충돌하는 것처럼 보여도 시간이 지나면서 두 업무 모두에 최적화된 사고방식을 익히게 되는 것과 유사하다.
또한 연구팀은 가중치를 공유하지 않고 인코더와 디노이저를 별도 네트워크로 분리해 학습한 비교 실험에서, 두 네트워크가 자연스럽게 유사한 내부 표현을 발달시킨다는 사실을 CKA(중심 커널 정렬, Centered Kernel Alignment)라는 측정 방법으로 확인했다. 이는 토크나이제이션과 생성이 본질적으로 정렬된 과제라는 논문의 주장을 실험적으로 뒷받침한다.
이미지를 넘어 분자 설계까지, 사전 학습 없이도 뛰어난 수준
UNITE의 가장 조용하지만 강력한 함의는 이미지 생성이 아닌 영역에서 나온다. 연구팀은 QM9라는 소분자(Small Molecule) 데이터셋에 UNITE를 적용해, 기존 최고 성능 모델인 ADiT를 넘어서는 결과를 달성했다. 재구성 정확도(Match Rate)에서 99.37%를 기록해 ADiT의 97.20%를 뛰어넘었고, 생성 분자의 고유성(Uniqueness)에서도 99.71%로 ADiT의 97.76%를 앞섰다.
분자 생성 분야에는 이미지의 DINOv2에 해당하는 강력한 사전 학습 인코더가 존재하지 않는다. 기존 방식이라면 이 분야에서 고품질 잠재 확산 모델을 구축하기 위해 별도의 인코더를 처음부터 만들고 학습시키는 선행 작업이 필요했다. UNITE는 그 과정 없이 단일 학습만으로 최고 수준의 모델을 능가하는 성능에 도달했다. 같은 원리가 결정 구조 생성(Crystal Generation) 실험인 MP20 데이터셋에서도 경쟁력 있는 성능을 보였다.
이는 UNITE가 단순히 이미지 생성 효율을 높인 것을 넘어, 사전 학습 인코더 없이도 잠재 확산 모델을 처음부터 구축할 수 있는 보편적 프레임워크로 기능할 수 있음을 시사한다. 신약 후보 물질 탐색, 신소재 발견, 단백질 구조 예측 등 데이터가 제한적이거나 고품질 사전 학습 모델이 없는 과학 분야에서 이 접근법이 실질적인 돌파구가 될 가능성이 있다.
단일 학습 구조의 가능성과 남겨진 과제
UNITE의 성과는 분명하지만, 몇 가지 유보할 지점도 있다. 외부 감독 없이 처음부터 학습하는 구조가 충분히 대규모로 확장되었을 때도 현재의 이점을 유지할 수 있는지는 아직 확인이 필요하다. 논문이 비교한 최상위 성능 모델들, 예컨대 LightningDiT나 DDT는 여전히 DINOv2 기반 감독을 활용하며 FID 1.35~1.26 수준을 기록하고 있어 UNITE와의 차이가 여전히 존재한다.
또한 생성적 인코더의 선형 탐침(Linear Probing) 정확도가 약 30%에 머물러 있다는 점은, 잠재 표현이 판별적 과제에서 얼마나 유용할지 아직 불분명하다는 신호일 수 있다. 연구팀 스스로도 시각-언어 모델(VLM) 환경에서의 평가가 더 적합한 기준이 될 수 있다고 언급했다. 이 아키텍처가 생성 이상의 역할, 즉 이해와 추론이 요구되는 멀티모달 시스템으로 확장될 수 있는지는 두고 볼 필요가 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. UNITE는 기존 이미지 생성 AI와 무엇이 다른가요? UNITE는 이미지를 압축 코드로 바꾸는 토크나이저 학습과 그 코드에서 새 이미지를 만드는 생성 모델 학습을 하나의 과정으로 합친 AI입니다. 기존 모델은 두 단계를 순서대로 별도로 학습해야 했지만, UNITE는 같은 네트워크가 두 역할을 동시에 익힙니다.
Q. FID 수치가 낮을수록 좋다고 하는데, UNITE의 성능은 실제로 어느 수준인가요? FID(프레셰 인셉션 거리)는 생성된 이미지가 실제 이미지와 얼마나 비슷한지 나타내는 수치로, 낮을수록 좋습니다. UNITE 기본 모델은 이미지넷 256×256 기준 FID 2.12를 달성했으며, 이는 기존 두 단계 방식의 대표 모델인 DiT-XL/2(FID 2.27)보다 우수한 수준입니다.
Q. UNITE가 이미지 외에 다른 분야에도 활용될 수 있나요? 네, 연구팀은 분자 구조 생성 데이터셋인 QM9에 UNITE를 적용해 기존 최고 모델을 뛰어넘는 성능을 확인했습니다. 사전 학습된 외부 인코더가 없는 신약 개발, 신소재 발견, 단백질 구조 예측 등 과학 분야에서도 활용 가능성이 있습니다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.