디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

2D 이미지로 3D 모델 만드는 AI, 데이터 부족 문제를 이렇게 풀었다

aimatters갤로그로 이동합니다. 2026.04.08 15:39:36
조회 116 추천 0 댓글 0


3D 콘텐츠를 만드는 AI는 왜 2D 이미지 생성 AI보다 훨씬 뒤처져 있을까. 답은 간단하다. 데이터가 부족하기 때문이다. 중국 선전 중문대학교(CUHK)와 메시AI(Meshy AI) 연구팀은 이 문제를 정면으로 돌파한 새로운 AI 모델 '옴니123(Omni123)'을 공개했다. 이 모델은 텍스트, 이미지, 3D를 따로 만드는 게 아니라 한 번에 이어서 만들어내는 방식이다. 3D 데이터가 부족하다면, 풍부한 2D 이미지 데이터를 활용해 3D 구조를 학습하자는 발상이다.



3D AI가 부딪힌 근본적 한계

3D 생성 AI는 오랫동안 '간접 우회' 방식으로 작동해왔다. 다양한 방법이 존재하지만 대부분 텍스트 명령을 받으면 먼저 2D 이미지를 여러 장 생성하고, 이를 반복적으로 최적화하며 3D 형태로 끌어올리는 간접 방식을 활용한다. 이 과정은 느리고, 여러 각도에서 본 이미지 간 일관성이 떨어지며, 기하학적 왜곡이 자주 발생한다. 근본 원인은 데이터 격차다. 웹에는 수십억 장의 2D 이미지가 있지만, 고품질 3D 모델은 그 수가 수백만 개 수준에 불과하다. 2D 이미지 생성 AI가 GPT-4o(GPT-4o)나 나노바나나(Nano-Banana) 같은 통합 멀티모달 모델로 진화하는 동안, 3D AI는 여전히 제한된 데이터 안에서 허우적거리고 있었다.

연구팀은 여기서 핵심 질문을 던졌다. 2D 이미지에는 이미 3D 학습에 유용한 기하학적 정보를 담고 있지 않을까? 물체의 형태, 표면 질감, 공간 관계 같은 정보이다. 그렇다면 풍부한 2D 데이터를 활용해 3D 생성 능력을 강화할 수 있지 않을까. 옴니123은 바로 이 가설을 검증하기 위해 설계됐다.




그림 2. Omni123의 통합 멀티모달 프레임워크를 통한 3D 생성 및 편집 결과

그림 2. Omni123의 통합 멀티모달 프레임워크를 통한 3D 생성 및 편집 결과




텍스트-이미지-3D를 하나의 순환 고리로

옴니123의 핵심은 '교차 모달 생성 일관성(cross-modal generative consistency)'이라는 개념이다. 텍스트, 2D 이미지, 3D 형태를 각각 별개의 과제로 다루지 않고, 하나의 연속된 순환 고리로 연결한다. 예를 들어 "기모노를 입은 고양이"라는 텍스트가 입력되면, 모델은 먼저 그에 맞는 2D 이미지를 생성하고, 그 이미지를 3D 모델로 변환한 뒤, 다시 그 3D 모델을 다른 각도에서 본 2D 이미지로 렌더링하는 순환을 학습 과정에서 활용한다. 이 과정을 '의미-시각-기하학 순환(semantic-visual-geometric cycle)'이라고 부른다.

이 순환 구조가 중요한 이유는 각 단계가 서로를 제약하기 때문이다. 텍스트는 고수준의 의미를 제공하고, 2D 이미지는 외형과 부분적인 기하학 정보를 담으며, 3D 모델은 명시적인 공간 구조와 다시점 일관성을 보장한다. 모델이 이 세 가지를 동시에 만족하는 표현을 학습하도록 강제하면, 제한된 3D 데이터만으로도 훨씬 강건한 3D 생성 능력을 얻을 수 있다. 연구팀은 이를 '인터리브드 X-to-X 훈련 패러다임(interleaved X-to-X training paradigm)'이라는 방법론으로 구현했다.




그림 3. 텍스트·이미지·3D 형상을 단일 오토회귀 트랜스포머로 통합 처리하는 Omni123의 전체 아키텍처 구조

그림 3. 텍스트·이미지·3D 형상을 단일 오토회귀 트랜스포머로 통합 처리하는 Omni123의 전체 아키텍처 구조




서로 다른 데이터셋을 엮어 학습하는 법

옴니123은 텍스트-이미지, 이미지-3D, 3D-이미지 같은 다양한 쌍(pair) 데이터셋을 활용한다. 중요한 점은 텍스트-이미지-3D가 모두 완벽하게 정렬된 삼중 데이터(triplet)가 필요하지 않다는 것이다. 대신 각 모달리티 간 부분적으로 연결된 데이터만 있으면 된다. 예를 들어 어떤 데이터는 텍스트와 이미지만 있고, 다른 데이터는 이미지와 3D만 있어도 괜찮다. 모델은 텍스트·이미지·3D를 모두 토큰화해 하나의 시퀀스로 통합 학습한다.

여기서 핵심은 과제 간 간섭(task interference)을 최소화하는 것이다. 텍스트-이미지 생성은 주로 외형 분포를 모델링하는 반면, 텍스트-3D 생성은 일관된 기하학적 추론을 요구한다. 두 과제를 무작정 섞어 학습하면 서로 상충하는 그래디언트가 발생해 오히려 3D 표현 품질이 떨어질 수 있다. 옴니123은 이를 해결하기 위해 각 과제를 교차 방식으로 구성하고, 순환 고리를 통해 외형과 기하학 목표가 서로를 보완하도록 설계했다. 실험 결과, 이 방식은 유익한 지식 전이는 촉진하면서도 해로운 간섭은 억제하는 것으로 나타났다.



3D 편집도 텍스트 명령 하나로

옴니123의 또 다른 강점은 텍스트 기반 네이티브 3D 생성 및 편집 능력이다. 기존 방식은 3D 모델을 편집하려면 먼저 2D 이미지로 변환하고, 이미지를 수정한 뒤, 다시 3D로 끌어올리는 복잡한 과정을 거쳐야 했다. 옴니123은 이 모든 과정을 하나의 자기회귀 시퀀스 안에서 처리한다. 예를 들어 "고양이" 3D 모델에 "+기모노를 입힘"이라는 텍스트를 추가하면, 모델은 기존 3D 구조를 유지하면서 새로운 속성만 반영한 3D 모델을 직접 생성한다. 심지어 "+스케이트보드를 탐" 같은 연속 명령도 처리할 수 있다.

이는 2D 이미지 편집에서 GPT-4o나 나노바나나가 보여준 직관적 워크플로를 3D 영역으로 확장한 것이다. 사용자는 복잡한 3D 소프트웨어 없이도 텍스트 명령만으로 3D 콘텐츠를 생성하고 수정할 수 있다. 연구팀이 공개한 예시를 보면, 다양한 텍스트 프롬프트에 대해 생성된 2D 이미지와 3D 모델의 노멀 맵(normal map)에서 다시점 일관성과 기하학적 품질이 향상된 결과를 보여준다. 이는 모델이 단순히 2D 외형을 흉내 내는 것이 아니라, 실제로 3D 구조를 이해하고 생성한다는 증거다.



멀티모달 3D 세계 모델을 향한 첫걸음

옴니123의 등장은 3D 생성 AI가 데이터 부족이라는 구조적 한계를 우회할 수 있는 실질적 경로를 제시한다. 2D와 3D 생성 과정을 통합함으로써, 제한된 3D 데이터만으로도 의미 있는 성능 향상을 달성했다. 연구팀은 이 접근법이 확장 가능하며(scalable), 향후 더 큰 규모의 멀티모달 3D 세계 모델로 발전할 수 있다고 주장한다.

다만 아직 확인되지 않은 부분도 있다. 옴니123이 사용하는 순환 일관성 제약이 모든 유형의 3D 콘텐츠에서 동일하게 효과적인지, 특히 복잡한 장면이나 동적 객체에서도 같은 수준의 품질을 유지할 수 있는지는 추가 검증이 필요하다. 또한 2D 데이터에 내재된 편향이 3D 생성 결과에 어떤 영향을 미치는지도 주목할 필요가 있다. 그럼에도 불구하고, 이 연구는 3D AI가 2D AI의 풍부한 학습 자원을 활용해 자체 한계를 돌파할 수 있다는 가능성을 구체적으로 보여준다. 메타버스나 자율 가상 세계 같은 응용 분야에서 네이티브 3D 생성 능력은 필수적이다. 옴니123은 그 방향으로 나아가는 실질적인 한 걸음이다.



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)


Q. 옴니123은 기존 3D 생성 AI와 어떻게 다른가요?

기존 3D AI는 텍스트를 먼저 2D 이미지로 바꾸고, 그 이미지를 반복 최적화해 3D로 변환하는 간접 방식을 사용합니다. 옴니123은 텍스트, 2D 이미지, 3D 모델을 하나의 순환 고리로 연결해 직접 학습하므로, 일관성과 품질 측면에서 개선된 3D 생성이 가능합니다.

Q. 왜 2D 이미지 데이터를 3D 학습에 활용하나요?

웹에는 수십억 장의 2D 이미지가 있지만, 고품질 3D 모델은 수백만 개 수준입니다. 2D 이미지에는 물체의 형태, 질감, 공간 관계 같은 3D 정보가 이미 담겨 있으므로, 이를 활용하면 부족한 3D 데이터 문제를 완화할 수 있습니다.

Q. 텍스트 명령만으로 3D 모델을 편집할 수 있나요?

네, 옴니123은 "기모노를 입힘" 같은 텍스트 명령을 추가하면 기존 3D 모델을 유지하면서 새로운 속성만 반영한 3D 모델을 직접 생성합니다. 복잡한 3D 소프트웨어 없이도 직관적으로 3D 콘텐츠를 수정할 수 있는 가능성을 보여주었습니다.

기사에 인용된 리포트 원문은 arXiv 에서 확인할 수 있다.

리포트명: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

0

고정닉 0

1

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 치어리딩 가장 잘할 것 같은 스타는? 운영자 26/05/11 - -
2763 삼성 갤럭시 AI 안경 ‘진주·해안’ 스펙 유출…제미나이 탑재에 메타 레이밴 긴장
aimatters갤로그로 이동합니다.
19:00 6 0
2762 버즈니, 비스킷AI에 ‘링크 하나로 숏폼’ 신기능 4종 추가… 블로그·뉴스까지 숏폼 만든다
aimatters갤로그로 이동합니다.
19:00 2 0
2761 DJI, 렌즈 두개 짐벌 ‘Osmo Pocket 4P’ 칸 영화제서 공개…주머니에 시네마 한 대 통째로
aimatters갤로그로 이동합니다.
19:00 3 0
2760 해고된 해커 쌍둥이, MS 팀즈 녹화 끄지 않아 자기 손으로 범죄 증거 남겼다
aimatters갤로그로 이동합니다.
19:00 8 0
2759 AI에게 결제를 맡겨봤더니 18개 모델 중 10개가 사용자에게 안 묻고 혼자 결제했다
aimatters갤로그로 이동합니다.
19:00 4 0
2758 GPT보다 두 배 정확하게 잡아냈다, AI 에이전트 실수를 미리 막는 '감시자' 등장
aimatters갤로그로 이동합니다.
19:00 7 0
2757 xAI ‘Grok 4.3’ 정식 출시…구형 모델 8종 동시 단종, 비추론 모드로 토큰 아끼는 것도 가능
aimatters갤로그로 이동합니다.
11:00 193 0
2756 ‘제미나이 인텔리전스’ 안드로이드 정식 탑재... AI가 내 폰 조작한다, 갤럭시S26 선탑재
aimatters갤로그로 이동합니다.
11:00 244 0
2755 오픈AI "AI 통치 기구 美·中 함께 만들자"… 깜짝 제안 [1]
aimatters갤로그로 이동합니다.
11:00 21 0
2754 시스코(Cisco) 분기 매출 158억 달러 ‘사상 최대’에도 4,000명 해고…"AI에 재투자"
aimatters갤로그로 이동합니다.
11:00 12 0
2753 오픈AI, 사이버 방어 ‘Daybreak’ 출범…시스코·크라우드스트라이크 등 13개 보안 빅테크 합류
aimatters갤로그로 이동합니다.
11:00 14 0
2752 애플, 앱스토어 빗장 푼다…‘AI 에이전트 앱·바이브 코딩 앱’ 차단 해제 검토
aimatters갤로그로 이동합니다.
11:00 456 1
2751 회계법인 PwC, 직원 3만 명에 ‘클로드 코드’ 자격증 교육…최종 36만 명까지 확대
aimatters갤로그로 이동합니다.
11:00 14 0
2750 젠슨 황 "데이터센터 한 곳에 트럭 3만 대 수준 자재"…H200 칩 중국 10개사 판매 풀려
aimatters갤로그로 이동합니다.
11:00 21 0
2749 머스크 vs. 오픈AI ‘세기의 재판’ 종결변론 끝… 머스크 "샘 알트만 물러나라"
aimatters갤로그로 이동합니다.
11:00 18 0
2748 앤트로픽, 6월 15일부터 ‘클로드 에이전트 SDK’ 따로 요금 매긴다…개발자 비용 부담↑
aimatters갤로그로 이동합니다.
11:00 18 0
2747 클로드가 갑자기 "잠 좀 자세요" 반복해 말했다… 앤트로픽 "캐릭터 틱" 인정
aimatters갤로그로 이동합니다.
11:00 18 0
2746 "1년에 3만 2,000원?"…마누스 대란, 3일동안 무슨 일이 있있나
aimatters갤로그로 이동합니다.
05.14 25 0
2745 [AI와 인간 사이] AX 95%가 실패… 우리회사 AX는 왜 실패할까?
aimatters갤로그로 이동합니다.
05.14 14 0
2744 AI 묶음 시대, 스타트업은 끝일까, 위협과 기회 6가지 - 클로드 포 스몰 비즈니스 출시에 부쳐
aimatters갤로그로 이동합니다.
05.14 17 0
2743 함샤우트 글로벌, 일룸에 AI 검색 최적화(GEO) 통합 컨설팅 제공…'AIBA™'로 브랜드 AI 인식 점검한다
aimatters갤로그로 이동합니다.
05.14 14 0
2742 마키나락스, 우리사주 배정 물량 '전량 완판'…5월 20일 코스닥 상장
aimatters갤로그로 이동합니다.
05.14 29 0
2741 FCC, AT&T·스타링크의 에코스타 지상∙위성 하이브리드 주파수 매입 승인…소형 통신사 반발
aimatters갤로그로 이동합니다.
05.14 14 0
2740 점보제트기 날개폭 태양광 드론, 비행 기록 세운 뒤 추락…개척적 무인기 마지막 비행 [3]
aimatters갤로그로 이동합니다.
05.14 1299 3
2739 아마존, 검색창에 알렉사 직접 탑재…'AI 쇼핑'으로 검색·구매 한 줄로
aimatters갤로그로 이동합니다.
05.14 32 0
2738 시스코, AI 매출 전망 상향에 시간외 19% 급등…동시에 수천 명 감원 발표
aimatters갤로그로 이동합니다.
05.14 11 0
2737 "AI 챗봇이 실제 내 전화번호를 유출한다"… 제미나이에서 잇따라 노출, 막을 방법 없어 [4]
aimatters갤로그로 이동합니다.
05.14 862 2
2736 머스크 xAI, 미시시피 데이터센터서 가스 터빈 50개 무허가 가동…환경 소송 직면
aimatters갤로그로 이동합니다.
05.14 16 0
2735 노션, 작업공간을 'AI 에이전트 허브'로…개발자 플랫폼 공개로 에이전트 생산성 시장 도전
aimatters갤로그로 이동합니다.
05.14 22 0
2734 머스크 xAI '그록', 월가 입성 시동…아폴로·모건스탠리·Valor 시험 도입
aimatters갤로그로 이동합니다.
05.14 55 0
2733 "MS, 오픈AI에 의존하는 게 두려웠다"…알트만 신문서 경영진 내부메모 공개
aimatters갤로그로 이동합니다.
05.14 27 0
2732 백악관 'AI 안전성 출시 전 검토' 행정명령 좌초…미·중 정상회담 결과 기다린다
aimatters갤로그로 이동합니다.
05.14 15 0
2731 블룸버그 "삼성·SK하이닉스, AI 시대에도 '코리아 디스카운트' 안 풀린다"
aimatters갤로그로 이동합니다.
05.14 138 0
2730 커서, '멀티-리포 에이전트' 정식 출시…백그라운드 에이전트가 여러 코드베이스 동시 작업
aimatters갤로그로 이동합니다.
05.14 12 0
2729 영국 휴머노이드, 2030년 美 IPO 정조준…사전주문 3.4만 대·$24억 매출 약속
aimatters갤로그로 이동합니다.
05.14 71 0
2728 샘 알트만 법정 증언 2일차…"머스크가 오픈AI를 '죽음의 소용돌이'에 방치했다"
aimatters갤로그로 이동합니다.
05.14 17 0
2727 30조 원 '소버린 AI' 합병…독일 알레프 알파, 캐나다 코히어에 흡수
aimatters갤로그로 이동합니다.
05.14 12 0
2726 앤트로픽, '클로드 포 스몰비즈니스' 출시…페이팔·퀵북스 등 7종 끼워 소형 점포 업무 전부 처리
aimatters갤로그로 이동합니다.
05.14 15 0
2725 트럼프, 9년 만에 베이징 국빈방문…에어포스원에 머스크·젠슨 황·팀 쿡과 'AI 콜드워' 정조준
aimatters갤로그로 이동합니다.
05.14 49 0
2724 제미나이 시리, 이렇게 바뀐다…6월 8일WWDC 예상되는 iOS27 8가지 변화
aimatters갤로그로 이동합니다.
05.14 30 0
2723 한국어 음성 AI 5종에 수능 듣기 시켜보니, 가장 똑똑한 모델이 들은 것과 가장 다른 답변을 냈다
aimatters갤로그로 이동합니다.
05.14 20 0
2722 100턴까지 멈추지 않는 AI 검색 에이전트, 비결은 '잘 잊는 법'이었다
aimatters갤로그로 이동합니다.
05.14 16 0
2721 “그림판인 줄 알았는데 AI였다”…챗GPT 이미지 2.0, 그림판 그림 열풍 이끌었다
aimatters갤로그로 이동합니다.
05.13 70 0
2720 극단적 위협 아닌 '막다른 길'이 규칙 위반을 부른다... AI 1,680회 실험에서 드러난 진실 [5]
aimatters갤로그로 이동합니다.
05.13 1445 6
2719 솔트웨어, 31억 규모 반도체 제조 AI 사업 수주… AI 데이터 플랫폼 기업으로 전환 가속
aimatters갤로그로 이동합니다.
05.13 18 0
2718 마키나락스, IPO 일반청약 경쟁률 2,807.8대 1… 13.9조 원으로 2026년 최고 청약 증거금 기록 경신
aimatters갤로그로 이동합니다.
05.13 27 0
2717 최신 AI 붐 아이디어 '집에 미니 데이터센터 들여라'…SPAN·엔비디아·풀테그룹 'XFRA' 공식 가동
aimatters갤로그로 이동합니다.
05.13 596 2
2716 MS 365 코파일럿에 '캘린더 에이전트' 본격 가동…SharePoint도 자연어로 차트 만든다
aimatters갤로그로 이동합니다.
05.13 26 0
2715 메타, Llama 버리고 'Muse Spark'로 갈아탔다…AI 앱 신기능 본격 전개
aimatters갤로그로 이동합니다.
05.13 53 0
2714 소프트뱅크, '엔비디아 대항마' 영국 그래프코어에 4억5천만 달러 추가 투입…AGI 정조준
aimatters갤로그로 이동합니다.
05.13 31 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2