디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

'하나로 다 되는' AI 등장... 이미지-영상 생성·편집 동시에 처리한다

aimatters갤로그로 이동합니다. 2026.01.07 17:28:54
조회 64 추천 0 댓글 0


상하이 자오퉁 대학교와 중국 콰이쇼우 테크놀로지(Kuaishou Technology) 연구진이 이미지와 비디오의 생성부터 편집까지 하나의 모델로 처리하는 '비노(VINO)'를 공개했다. 지금까지는 사진을 만들 때, 영상을 만들 때, 편집할 때 각각 다른 AI 프로그램을 써야 했지만, 비노는 이 모든 작업을 하나로 처리한다. 



여러 종류의 명령을 한 번에 이해하는 기술 

비노의 핵심 기술은 글, 사진, 영상 등 서로 다른 형태의 자료를 동시에 이해하고 처리하는 능력이다. 연구팀은 이를 위해 두 가지 핵심 부품을 조합했다. 첫 번째는 이미지와 텍스트를 함께 이해하는 비전-언어 모델(VLM)이고, 두 번째는 실제로 이미지나 영상을 만들어내는 멀티모달 확산 트랜스포머(MMDiT)이다. 

비전-언어 모델이 사용자가 입력한 글, 참고용 사진, 영상 등을 분석해서 통합된 정보로 변환하면, 확산 트랜스포머가 이 정보를 바탕으로 새로운 이미지나 영상을 만들어낸다. 이 설계 덕분에 작업별로 특화된 모듈 없이도 단일 시스템이 다양한 입력을 처리할 수 있게 됐다. 

특히 연구팀은 학습 가능한 쿼리 토큰(learnable query tokens) 이라는 기술을 추가했다. 이는 사용자의 추상적인 요구사항과 실제 이미지 제작 사이를 연결하는 역할을 한다. 따라서 실험 결과 이 기술을 적용하자 AI가 훨씬 안정적으로 학습했고, 결과물의 품질도 크게 향상됐다. 



원본 사진·영상의 특징을 정확하게 유지하는 비결 

비노는 원본 이미지나 영상의 특징을 잘 보존하기 위해 특별한 장치를 마련했다. 단순히 이미지를 분석한 정보만 사용하는 게 아니라, 원본의 세밀한 시각 정보도 함께 활용한다. 이때 중요한 것이 특수 토큰 경계 메커니즘(token-boundary mechanis)이다. 각 참고 자료(사진이나 영상)마다 시작과 끝을 표시하는 특별한 표지를 붙이는 방식이다. 이 표지는 의미 정보와 시각 정보 양쪽에 동일하게 적용된다. 덕분에 AI는 같은 원본에서 나온 여러 종류의 정보를 하나로 묶어서 인식할 수 있다. 

연구팀의 실험에서 이 표지를 제거하자 AI가 정지된 사진을 움직이는 영상의 일부로 착각하는 오류가 발생했다. 특히 만들어진 영상의 첫 장면이 심하게 일그러지는 문제가 나타났다. 이 메커니즘은 복잡한 여러 자료를 다룰 때 인물이나 사물의 특징이 뒤섞이는 것을 막는 핵심 역할을 한다. 



3단계 학습으로 만능 AI로 진화 

비노 연구팀에 따르면, 비노를 학습시키는 데 가장 어려웠던 점은 서로 다른 형태의 명령을 처리하는 것이었다. 이미지나 영상을 새로 만들 때는 길고 자세한 설명이 필요하지만, 편집할 때는 "배경을 바꿔줘"처럼 짧고 간단한 지시를 사용한다. 연구팀은 이 문제를 3단계 학습 전략으로 해결했다. 

1단계에서는 긴 설명과 함께 이미지·영상 자료를 학습시켰다. 이 과정에서 AI의 이해 능력과 제작 능력을 서로 맞췄다. 2단계에서는 긴 설명과 짧은 설명을 섞어서 학습시켜 AI가 짧은 명령도 이해하고, 부족한 정보를 스스로 채울 수 있게 했다. 3단계에서는 모든 종류의 작업을 함께 학습시켰다. 

학습 데이터 비율을 보면 단계별로 점차 편집 작업의 비중을 늘려갔다. 1단계에서는 텍스트로 이미지 만들기(40%), 텍스트로 영상 만들기(45%) 등 기본 생성 작업 위주였다. 3단계에서는 이미지 편집(46%), 여러 인물이 나오는 영상 생성(19%), 지시에 따른 영상 편집(13%) 등 복잡한 작업의 비중이 크게 늘었다. 





기존 AI들과 비교해도 뛰어난 성능 입증 

연구팀은 여러 성능 평가 도구로 비노의 능력을 검증했다. 이미지 생성 능력을 평가하는 테스트에서 비노는 추가 기술을 적용했을 때 상위권 이미지 전문 AI들과 비슷한 수준을 보였다. 영상 품질 평가에서는 기반이 된 훈위완 비디오(HunyuanVideo) 와 거의 같은 성능을 유지하면서도, 명령의 의미를 이해하는 능력에서는 오히려 더 뛰어난 결과를 냈다. 

참고 자료를 바탕으로 영상을 만드는 능력 평가에서 비노는 일부 유료 상용 AI들을 포함한 여러 경쟁 모델들보다 높은 점수를 받았다. 특히 원본 인물의 얼굴 특징을 그대로 유지하는 능력에서 우수한 평가를 받았다. 

편집 능력은 더욱 뛰어났다. 이미지 편집 평가에서 비노는 5점 만점에 평균 4.18점을 기록하며 최상위권 성능을 보였다. 특히 불필요한 요소 제거, 여러 요소 조합, 동작 관련 편집에서 4.3~4.5점대의 높은 점수를 받았다. 놀라운 점은 편집 학습을 시작한 지 얼마 안 됐을 때도 대부분의 공개 AI를 넘어섰다는 것이다. 

영상 편집에서는 경쟁 AI인 '베이스-디토'와 비교 평가를 진행했다. 대상 유지, 배경 일관성, 움직임 부드러움 등 모든 항목에서 90%대 중후반의 높은 점수를 기록했다. 25명을 대상으로 한 사용자 평가에서도 명령 이해도와 영상 품질 모두 5점 만점에 4점을 받아, 2점대에 머문 베이스-디토를 크게 앞질렀다. 



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.) 

Q. 비노가 기존 AI와 어떻게 다른가요? 

A. 기존에는 사진 만들기, 영상 만들기, 편집하기를 각각 다른 AI 프로그램으로 해야 했습니다. 비노는 이 모든 작업을 하나의 프로그램에서 처리합니다. 여러 개의 앱을 설치하고 배울 필요 없이 하나만 사용하면 됩니다. 

Q. 일반 사용자도 비노를 쓸 수 있나요? 

A. 현재 비노는 연구 단계의 기술입니다. 논문과 프로젝트 페이지가 공개되어 있으며, 깃허브에서 코드를 확인할 수 있습니다. 실제 서비스로 출시되려면 더 기다려야 할 것으로 보입니다. 

Q. 비노의 한계는 무엇인가요? 

A. 비노는 이미지나 영상에 글자를 넣는 기능이 약합니다. 또한 참고 자료로 영상과 여러 장의 사진을 동시에 많이 넣으면 처리 속도가 느려집니다. 연구팀은 향후 더 효율적인 AI 구조를 탐색할 계획입니다. 



기사에 인용된 리포트 원문은 arXiv에서 확인가능하다.

논문명: VInO: A Unified Visual Generator with Interleaved OmniModal Context 

이미지 출처: VInO: A Unified Visual Generator with Interleaved OmniModal Context

해당 기사는 클로드를 활용해 작성되었습니다. 



추천 비추천

0

고정닉 0

0

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 시대를 잘 타고나서 뜬 것 같은 스타는? 운영자 26/02/16 - -
2060 앤트로픽이 경고하는 클로드 오퍼스 4.6의 8가지 위험 경로 시나리오 aimatters갤로그로 이동합니다. 02.12 46 0
2059 "개인 컴퓨터로 초거대 AI 학습 가능해진다"... 12배 빠른 신기술 등장  aimatters갤로그로 이동합니다. 02.12 79 0
2058 AI가 제안서부터 재무보고서까지 '완성 파일'로 뚝딱… 중국 GLM-5 충격 [4] aimatters갤로그로 이동합니다. 02.12 1109 6
2057 한국 교육부, 2028년부터 AI로 수능 영어 지문 만든다 aimatters갤로그로 이동합니다. 02.12 34 0
2056 앤트로픽, 파워포인트용 클로드 베타 출시…템플릿 인식해 슬라이드 자동 생성 aimatters갤로그로 이동합니다. 02.12 38 0
2055 요기요, 챗GPT에 국내 배달앱 최초로 앱 개설… "대화로 맛집 찾고 주문까지" aimatters갤로그로 이동합니다. 02.12 37 0
2054 AI가 의식을 가졌다고? 몰트북 실험이 폭로한 충격적 진실 [6] aimatters갤로그로 이동합니다. 02.11 2529 9
2053 아이소모픽랩스, 15년 걸린 발견 몇 초 만에… 알파폴드3 뛰어넘는 AI 신약 엔진 공개 aimatters갤로그로 이동합니다. 02.11 53 0
2052 "한자도 완벽 재현"… 알리바바 Qwen-Image-2.0, 이미지 속 텍스트 문제 해결 aimatters갤로그로 이동합니다. 02.11 60 0
2051 앤트로픽 '코워크', 윈도우 지원 시작… 맥OS와 동일 기능 제공 aimatters갤로그로 이동합니다. 02.11 32 0
2050 오픈AI, 챗GPT에 광고 도입… 무료·저가 사용자 대상 테스트 시작 aimatters갤로그로 이동합니다. 02.11 55 0
2049 커서, 강화학습 20배 확대한 'Composer 1.5' 공개… "속도와 성능 균형 맞췄다" aimatters갤로그로 이동합니다. 02.11 38 0
2048 "우주 방사선 속에서도 오류 96% 차단"…위성 AI 칩의 비밀 aimatters갤로그로 이동합니다. 02.11 41 0
2047 BMW·벤츠 AI 비서, 해커 손에 차량 제어권 넘긴다  aimatters갤로그로 이동합니다. 02.11 487 1
2046 2025년 학술 논문, 전년 대비 가짜 인용 81% 급증... AI 에이전트가 원인 aimatters갤로그로 이동합니다. 02.11 481 3
2045 챗GPT 앱 사용 시간 1년 만에 8배 폭증…한국인 AI 활용 급증 aimatters갤로그로 이동합니다. 02.11 40 0
2044 메타 AI, 신모델 '아보카도'와 브라우저 에이전트 출시 준비 포착 aimatters갤로그로 이동합니다. 02.10 40 0
2043 오픈클로 창시자, "앱의 80%가 사라질 것" aimatters갤로그로 이동합니다. 02.10 67 0
2042 샘 알트만 "챗GPT 월간 성장률 10% 돌파"... 오픈AI, 1000억 달러 투자 유치 막바지 [14] aimatters갤로그로 이동합니다. 02.10 985 0
2041 2만 달러 주고 AI한테 맡겼더니… 2주 만에 10만 줄 프로그램 완성 aimatters갤로그로 이동합니다. 02.09 117 0
2040 카카오·네이버·당근마켓, 오픈클로 사용 금지령… AI 에이전트 보안 공포 확산 [14] aimatters갤로그로 이동합니다. 02.09 2810 6
2039 인스타그램 창업자, 개발자는 이제 코드 안 짠다..."앤트로픽 코드 100% AI가 작성" aimatters갤로그로 이동합니다. 02.09 104 0
2038 메타 레이밴 글라스가 진짜 AI 비서로… 보고 듣고 심부름까지 척척 aimatters갤로그로 이동합니다. 02.09 69 1
2037 AI 수백 개가 밤낮없이 코딩… 일주일간 혼자 웹브라우저 만든 인공지능 팀의 비밀 aimatters갤로그로 이동합니다. 02.06 217 0
2036 GPT-5, 2개월 만에 단백질 생산비 40% 낮춰... 약값 인하 기대 aimatters갤로그로 이동합니다. 02.06 86 0
2035 20대·저학력층이 가장 위험하다… AI 그럴듯한 거짓말에 무방비 aimatters갤로그로 이동합니다. 02.06 130 0
2034 "AI가 AI를 만드는 시대 열렸다"… 오픈AI, 자기 학습 모델 'GPT-5.3-Codex' 공개 aimatters갤로그로 이동합니다. 02.06 75 0
2033 "챗GPT 5.2 제쳤다"… 앤트로픽, 클로드 Opus 4.6 신모델 공개 aimatters갤로그로 이동합니다. 02.06 119 0
2032 "AI 직원을 여러분 회사에 파견합니다 기존 AI 같이 쓰세요"… 오픈AI, 기업용 AI 공개 [3] aimatters갤로그로 이동합니다. 02.06 1788 1
2031 "클로드·GPT·제미나이 한 번에 물어본다"… 퍼플렉시티, AI 동시 활용 기능 출시 aimatters갤로그로 이동합니다. 02.06 163 0
2030 AI가 빅맥보다 맛있는 버거를 만든다?... "맛·환경·영양 모두 잡았다" [12] aimatters갤로그로 이동합니다. 02.05 778 4
2029 "클로드 너마저" AI 코딩 에이전트, 실전 투입했더니 10개 중 8개 낙제… "파이썬만 한다" aimatters갤로그로 이동합니다. 02.05 114 0
2028 "유튜브 영상 한 번만 보면 농구 척척"… 단 1개 영상으로 10가지 기술 배우는 로봇 aimatters갤로그로 이동합니다. 02.05 64 0
2027 "AI가 인간 과학자의 90%를 대체한다"...세계 물리학자들의 충격 고백 aimatters갤로그로 이동합니다. 02.05 78 0
2026 연속 질문 및 최저가 구매 요청...아마존 프라임 회원 AI 알렉사 공짜로 쓴다 aimatters갤로그로 이동합니다. 02.05 34 0
2025 AI가 만든 가짜 판례 제출한 미국변호사들… 1,700만원 벌금 폭탄 aimatters갤로그로 이동합니다. 02.05 69 0
2024 튜링테스트는 통과했지만, AI가 사람처럼 생각할 필요가 있을까? aimatters갤로그로 이동합니다. 02.04 72 0
2023 AI '상상'만으로 웹서핑 마스터... 실수로 물건 사버릴 걱정 끝났다  [3] aimatters갤로그로 이동합니다. 02.04 1662 3
2022 챗GPT∙제미나이, 일반 AI에게도 보드게임 졌다? aimatters갤로그로 이동합니다. 02.04 90 0
2021 AI 발전시킨다던 오라클, 정작 데이터센터 설립 자금 마련하려 3만 명 해고 추진 aimatters갤로그로 이동합니다. 02.04 160 0
2020 "AI가 코드 짜고 오류 고친다"… 애플, 개발 도구에 클로드·코덱스 탑재 aimatters갤로그로 이동합니다. 02.04 51 0
2019 AI 코딩 에이전트의 치명적 DB 실수 막는다... 슈퍼베이스 가이드 공개 aimatters갤로그로 이동합니다. 02.04 38 0
2018 NASA "AI가 화성 길 찾아줬다"… 클로드, 3억km 떨어진 탐사선 경로 설계 aimatters갤로그로 이동합니다. 02.03 88 1
2017 오픈AI, "AI가 AI를 관리한다"… 여러 AI 비서 동시에 부리는 코덱스 앱 출시 [1] aimatters갤로그로 이동합니다. 02.03 129 0
2016 일론 머스크 "AI 미래는 우주에"... 스페이스X와 xAI 공식 합병 발표 [14] aimatters갤로그로 이동합니다. 02.03 1323 6
2015 "학생들 AI로 과제 다 한다고?"... 교수-학생, 서로를 크게 착각하고 있었다 [15] aimatters갤로그로 이동합니다. 02.03 3024 3
2014 "유명인 AI 딥페이크 성범죄 제작법 알려준다"… 30만 커뮤니티의 충격적 실체 [1] aimatters갤로그로 이동합니다. 02.03 475 0
2013 AI에게 복잡한 질문? 전기 25배 더 쓴다... 그 이유는 뭘까? aimatters갤로그로 이동합니다. 02.03 80 0
2012 AI가 AI 보안 무력화… 챗GPT·클로드 등 41개 모델 '숨겨진 지침서' 100% 유출  aimatters갤로그로 이동합니다. 02.02 78 0
2011 기업들 AI에 200조 원 쏟아붓지만 '신뢰·데이터·직원 교육' 문제 여전 [2] aimatters갤로그로 이동합니다. 02.02 1070 2
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2