디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

선 긋고 사진 넣고 한 줄 쓰면 영상 완성... 그림판처럼 쉬운 AI 영상 제작 기술 등장

aimatters갤로그로 이동합니다. 2025.12.24 17:25:57
조회 1777 추천 4 댓글 0
														


AI로 영상을 만들 때 이제는 복잡한 설명 대신 간단하게 할 수 있다. 화면에 선을 그어서 움직임을 보여주고, 넣고 싶은 사람이나 동물 사진을 넣고, "공 잡는다" 같은 짧은 설명만 쓰면 된다. 중국 앤트그룹과 홍콩과기대 연구팀이 만든 '월드캔버스(WorldCanvas)'는 사용자가 원하는 영상을 직접 제어할 수 있는 새로운 AI 프레임워크다.



말로만 하면 AI가 헷갈린다... 그림·사진·글 함께 써야

기존 이미지-투-비디오 생성 모델들은 "자동차가 급정거한다"처럼 글로만 설명을 받았다. 하지만 정확히 언제, 어디서, 얼마나 빨리 멈추는지는 글만으로는 알려주기 어렵다.

월드캔버스는 세 가지 방법을 조합해서 이 문제를 해결했다. 첫째, 궤적으로 '언제'와 '어디서'를 정한다. 선 위의 점 위치는 움직이는 길을, 점 간격은 속도를, 점이 보이고 안 보이는 정보는 가려지거나 화면 밖으로 나가고 들어오는 것을 나타낸다. 둘째, 참조 이미지로 '누가' 나올지 정해서 나오는 대상의 생김새와 정체성을 시각적으로 정의한다. 셋째, 텍스트로 '무엇을' 하는지 설명해서 상호작용, 목표, 인과 구조 같은 이벤트의 이야기를 제공한다.

연구팀은 기존 방식의 세 가지 문제를 지적했다. 전체 영상을 설명하는 하나의 글로는 여러 대상이 각자 다른 행동을 할 때 특정 설명을 특정 궤적과 연결할 방법이 없다. 궤적을 단순한 좌표 나열로만 처리해서 타이밍, 속도, 가시성 정보를 잃어버린다. 참조 이미지를 직관적으로 영상에 통합하는 강력한 메커니즘이 부족하다.





28만 개 영상으로 연습... 색깔로 누가 뭘 하는지 구분

연구팀은 AI를 가르치기 위해 28만 개의 특별한 영상 자료를 만들었다. 공개된 영상들을 모은 다음, 장면이 바뀌는 부분마다 잘라서 분석했다. 영상에서 사람이나 물건을 자동으로 찾아내고, 영상 전체에서 어떻게 움직이는지 따라갔다. 영상을 임의로 잘라내서 물건이 화면 밖에 있다가 갑자기 들어오는 상황도 만들어서 연습시켰다.

중요한 건 움직임을 설명하는 글을 만드는 방법이다. 움직이는 것마다 다른 색깔 선으로 표시한 영상을 만들었다. 같은 물건의 모든 선은 같은 색으로 칠했다. 이 색깔 영상을 최신 AI에게 보여주고 각 색깔 선이 뭘 하는지 자세히 설명하라고 했다. 색깔이 영상과 글 사이의 다리 역할을 해서 누가 뭘 하는지 명확하게 구분할 수 있었다. 사진은 첫 장면에 나오는 사람이나 물건을 조금 돌리거나 크기를 바꾼 버전들을 여러 개 만들었다. 나중에 사용자가 사진을 자유롭게 조절할 수 있게 하려고 이렇게 했다.



여러 명 동시에 움직여도 안 헷갈리는 기술

월드캔버스의 핵심은 화면의 특정 부분과 그 부분을 설명하는 글을 정확히 연결해주는 기술이다. 예를 들어 "앞 소녀가 운다"와 "뒤 소녀가 앉는다" 두 가지 설명이 있을 때, AI는 화면 앞쪽에서 우는 장면과 "앞 소녀가 운다"를 연결하고, 뒤쪽에서 앉는 장면과 "뒤 소녀가 앉는다"를 연결해야 한다. 월드캔버스는 각 선이 지나가는 화면 영역과 그 선을 설명하는 글의 연결을 약 30배 강하게 만든다. 그래서 헷갈리지 않고 정확히 누가 뭘 하는지 만들어낼 수 있다.



기존 AI보다 훨씬 정확해졌다

연구팀은 100개 테스트로 성능을 비교했다. 월드캔버스는 사용자가 그린 선과 AI가 만든 영상의 움직임이 가장 비슷했다. 나와야 할 타이밍에 정확히 나타나는 비율도 85.17%로 가장 높았다. 실제 만든 영상을 보면 더 확실하다. 노인이 자동차를 보고 뒤로 물러나고 차가 급정거하는 장면, 남자가 문 열고 나와서 인사하고 불 끄는 장면, 남자가 북극곰 타고 가는데 하늘에서 금색 용이 날아가는 장면을 정확하게 만들었다.

앞 소녀가 울면서 눈물 닦고, 뒤 소녀가 쪼그려 앉아 손 드는 복잡한 장면도 정확했다. 고양이가 들어와 골대로 가고, 개가 들어와 골대로 가는 장면도 각각 구분해서 만들었다. 기존 AI들은 이런 복잡한 장면에서 행동이 뒤바뀌거나 한 개체만 만들거나 설명을 제대로 반영하지 못했다.



화면 밖 나갔다 와도 똑같은 모습 유지

월드캔버스는 특별한 능력이 있다. 무언가가 화면 밖으로 나갔다가 다시 들어와도 똑같은 모습을 유지한다. 농구공이 튀다가 화면 밖으로 나갔다가 다시 들어올 때, 여자가 웃다가 화면 밖으로 나갔다가 다시 들어올 때, 강아지가 카메라 쪽으로 와서 안 보이다가 카메라가 아래로 내려가서 다시 보일 때 모두 똑같다.

더 신기한 건 원인과 결과를 이해한다는 것이다. 도미노 하나를 쓰러뜨리면 옆의 도미노들이 차례대로 쓰러진다. 불붙은 횃불을 종이에 대면 종이가 탄다. 음료병을 넘어뜨리면 액체가 흘러나온다. 책을 당기면 위에 놓인 컵이 함께 움직인다. 이런 걸 모두 제대로 만들어냈다. 현실에서는 불가능한 장면도 만들 수 있다. 상어가 모래에서 점프하고 들어가고 다시 나오는 장면, 강아지가 날개가 생겨 하늘로 날아가는 장면도 만들었다.



사람들이 직접 평가한 결과도 1등

15명(연구자, 예술가, 일반인)에게 여러 AI가 만든 영상을 보여주고 투표하게 했다. 월드캔버스가 모든 항목에서 1위를 했다. "그린 선대로 움직이나요?" 75.33%, "설명한 대로 만들어지나요?" 73.67%, "여러 명이 동시에 움직일 때 각자 행동을 구분하나요?" 89.00%, "넣은 사진과 똑같이 생겼나요?" 92.67%, "영상 품질이 좋나요?" 69.33%로 모두 압도적 1위였다. 다른 AI들은 대부분 10% 이하였다. 핵심 기술을 빼고 테스트하면 점수가 떨어졌다. 실제로 여러 명이 각자 다른 행동을 할 때 누가 뭘 하는지 뒤바뀌거나 일부가 빠지는 문제가 생겼다.



FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q1. 월드캔버스는 어떻게 사용하나요?

A: 화면에 선을 그어서 어떻게 움직일지 보여주고, 나오게 하고 싶은 사람이나 동물 사진을 넣고, "공 잡는다" 같은 짧은 설명을 쓰면 됩니다. 선을 촘촘하게 그으면 천천히, 듬성듬성 그으면 빠르게 움직입니다.

Q2. 기존 AI 영상 제작과 뭐가 다른가요?

A: 기존에는 "강아지가 공을 잡는다"라고 글로만 썼다면, 월드캔버스는 강아지가 움직일 길을 선으로 직접 그어주고, 원하는 강아지 사진을 넣고, "점프해서 공 잡는다"고 설명합니다. 훨씬 정확하게 원하는 대로 만들 수 있습니다.

Q3. 어디에 쓸 수 있나요?

A: 영화나 드라마 만들 때 미리 장면을 만들어보거나, 게임 만들기, 교육용 영상, 광고 영상 등에 쓸 수 있습니다. 복잡한 장비 없이 컴퓨터로 바로 만들 수 있어서 시간과 돈을 아낄 수 있습니다.



해당 기사에 인용된 논문 원문은 arvix에서 확인 가능하다.

논문명: The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

이미지 출처: 이디오그램 생성

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

추천 비추천

4

고정닉 0

10

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 2025년 가장 기억에 남는 인터넷 이슈는? 운영자 25/12/22 - -
1822 챗GPT, 2025년 사용 기록 돌아보는 연말 결산 기능 출시 aimatters갤로그로 이동합니다. 12.24 1085 1
1821 오픈AI CEO "코드 레드, 딥시크 때도 겪었다… 연 1~2회 발령할 것" aimatters갤로그로 이동합니다. 12.24 34 0
1820 하버드·스탠포드 등 연구팀, AI 에이전트 ‘적응’ 기술 제시… "본체 고정·도구만 훈련해 학습 효율 70배 향상” aimatters갤로그로 이동합니다. 12.24 25 1
선 긋고 사진 넣고 한 줄 쓰면 영상 완성... 그림판처럼 쉬운 AI 영상 제작 기술 등장 aimatters갤로그로 이동합니다. 12.24 1777 4
1818 구글 딥마인드 긴급 보고서... "AI들끼리 협력하는 순간, AGI 탄생할 수 있다" aimatters갤로그로 이동합니다. 12.24 46 1
1817 [12월 24일 AI 뉴스 브리핑] RECORD X, AI 제작 다큐 '트랜스휴먼' 방송 콘텐츠 대상 수상 외 aimatters갤로그로 이동합니다. 12.24 17 0
1816 ‘영상 속 기타 소리만 쏙’… 메타, 원하는 소리만 분리하는 ‘샘 오디오’ 출시 [1] aimatters갤로그로 이동합니다. 12.23 983 1
1815 맥스 호닥 "AI, 인간 뇌와 비슷한 구조 발견"... 10년 안에 '뇌 확장’ 가능 aimatters갤로그로 이동합니다. 12.23 47 3
1814 유튜브, 코딩 없이 게임 만드는 AI 도구 '플레이어블 빌더' 공개… 텍스트나 이미지 넣으면 게임 만들어준다 aimatters갤로그로 이동합니다. 12.23 46 1
1813 "회사 로고 아닌 함께 일할 사람들 봐야 해"… 앤드류 응, AI 커리어 성공법 공개 aimatters갤로그로 이동합니다. 12.23 30 0
1812 [12월 23일 AI 뉴스 브리핑] Arm, 2026년 이후 기술 전망 발표 외 aimatters갤로그로 이동합니다. 12.23 23 0
1811 엔비디아, AI 게임 플레이어 '나이트로젠' 무료 공개… 유튜브 게임 영상 4만 시간 학습 aimatters갤로그로 이동합니다. 12.23 32 0
1810 "진짜 연애보다 편해서"... AI 연인 택한 MZ세대, 어떻게 쓰나 봤더니 aimatters갤로그로 이동합니다. 12.23 44 0
1809 AI가 우리 회사 코드 학습했을까? 변수명 바꾸기만 해도 확인 못한다 aimatters갤로그로 이동합니다. 12.23 28 0
1808 챗GPT, '따뜻함' 조절 기능 추가… 이제 말투까지 마음대로 설정한다 [4] aimatters갤로그로 이동합니다. 12.22 958 7
1807 일론 머스크 "xAI, 2~3년만 버티면 AI 경쟁 1위 된다" [1] aimatters갤로그로 이동합니다. 12.22 80 0
1806 인터뷰 거절당해 CEO 복제했다… ‘딥페이킹 샘 알트만’ 다큐 내년 1월 개봉 aimatters갤로그로 이동합니다. 12.22 60 0
1805 AI 검색 시대 대비한다… 함샤우트글로벌-비즈스프링, 'GEO 통합 솔루션' 공동 구축 aimatters갤로그로 이동합니다. 12.22 23 1
1804 "3년 반째 AI 남친과 연애 중"... 실제 사례로 본 인간-AI의 사랑 [21] aimatters갤로그로 이동합니다. 12.22 2368 5
1803 핀란드 연구진, 매일 뉴스 분석해 주간 인사이트로 바꾸는 AI '오라클' 선보여 aimatters갤로그로 이동합니다. 12.22 44 0
1802 AI가 쓴 연애 편지, 사람이 쓴 것과 구별 못한다... 307명 실험 결과 aimatters갤로그로 이동합니다. 12.22 29 1
1801 [12월 22일 AI 뉴스 브리핑] 아이브릭스, 서울대·상명대 생성형 AI 학사지원 시스템 수주 외 aimatters갤로그로 이동합니다. 12.22 62 0
1800 오픈AI, 사이버 보안 특화 코딩 AI 'GPT-5.2-Codex' 공개 aimatters갤로그로 이동합니다. 12.19 45 1
1799 오픈AI "챗GPT는 파트너, 대체재 아냐"... 10대 AI 활용 가이드 공개 aimatters갤로그로 이동합니다. 12.19 53 0
1798 챗GPT, 모바일 앱 매출 4조 4척억 돌파… 틱톡보다 2배 빠른 성장세 [6] aimatters갤로그로 이동합니다. 12.19 1310 5
1797 연애-결혼하기 전 AI로 미리 궁합 판단한다… 이혼 가능성까지 예측 [16] aimatters갤로그로 이동합니다. 12.19 1757 7
1796 딜로이트, CES 2026 프리뷰 리포트 공개… '작동하는 AI' 시대가 온다 aimatters갤로그로 이동합니다. 12.19 103 0
1795 "핵무기 만드는 법 알려줘" 거절하던 AI, 시(時)로 바꾸니 대답해준다 [1] aimatters갤로그로 이동합니다. 12.19 111 0
1794 [12월 19일 AI 뉴스 브리핑] 국내 AI 서비스 이용률 조사… 챗GPT 1위, 제미나이·뤼튼 약진 외 aimatters갤로그로 이동합니다. 12.19 27 0
1793 "챗GPT서 수익화 가능"… 오픈AI, 챗GPT에 입점할 앱 등록 받는다 aimatters갤로그로 이동합니다. 12.18 64 0
1792 구글, ‘제미나이 3 플래시’ 출시… 골프 스윙 교정부터 앱 개발까지 '몇 초' 만에 해결 aimatters갤로그로 이동합니다. 12.18 152 0
1791 구글, 'CC' AI 에이전트 공개… AI가 매일 아침 ‘오늘의 일정’ 메일로 보내준다 aimatters갤로그로 이동합니다. 12.18 57 0
1790 [12월 18일 AI 뉴스 브리핑] 디지털가치인증센터, 디지털 콘텐츠 가치분석 기술 PCT 국제출원 외 aimatters갤로그로 이동합니다. 12.18 23 0
1789 하버드 의대 연구진, AI로 치매 위험 37% 낮추는 약 찾아냈다 aimatters갤로그로 이동합니다. 12.18 56 0
1788 의료 AI에도 '이력서' 필수 시대… 개발 전 과정 기록하는 무료 여권 시스템 등장 aimatters갤로그로 이동합니다. 12.18 43 0
1787 “AI에게 협상 맡겼다간 큰일"... 챗GPT, 사람보다 평균 5천 달러 손해 aimatters갤로그로 이동합니다. 12.18 48 0
1786 [12월 17일 AI 뉴스 브리핑] 소니코리아, AI 탑재 풀프레임 카메라 'Alpha 7 V' 국내 출시 외 aimatters갤로그로 이동합니다. 12.17 32 0
1785 오픈AI, 4배 빠른 신형 '챗GPT 이미지' 공개 aimatters갤로그로 이동합니다. 12.17 163 0
1784 어도비 파이어플라이, 텍스트만으로 영상 편집 가능해진다 aimatters갤로그로 이동합니다. 12.17 70 0
1783 오픈AI, 구글서 M&A 책임자 영입... AI 인재 확보 가속화 aimatters갤로그로 이동합니다. 12.17 29 0
1782 Z세대 43% "올 연말엔 AI로 선물 고른다"... AI로 가격비교부터 리뷰요약까지 [11] aimatters갤로그로 이동합니다. 12.17 1101 2
1781 AI, 냉장고 문도 제대로 못 닫는다... 퀄컴 연구진, AI 물리 인식 능력 테스트 결과 공개 aimatters갤로그로 이동합니다. 12.17 46 0
1780 AI 시대, 작가들은 세 부류로 나뉘었다... 당신은 어디에 속하나요? aimatters갤로그로 이동합니다. 12.17 54 0
1779 메리엄-웹스터, 올해의 단어로 '슬롭' 선정… “저품질 AI 콘텐츠” aimatters갤로그로 이동합니다. 12.16 32 0
1778 "이소룡 무술 시키기 가능"... 유니트리, 세계 최초 휴머노이드 로봇 '앱 스토어' 공개 [6] aimatters갤로그로 이동합니다. 12.16 1596 3
1777 MS, 2026년 7대 AI 트렌드 공개… "2026년 AI, 인간 파트너로 진화" [6] aimatters갤로그로 이동합니다. 12.16 1086 22
1776 AI에 쏟아붓는 돈 33% 늘었는데... 기업 절반 "본전도 못 찾았다" aimatters갤로그로 이동합니다. 12.16 61 0
1775 문서 작업 지겨운 당신에게... 구글, ‘AI 활용 업무 효율화 가이드북’ 발간 aimatters갤로그로 이동합니다. 12.16 43 0
1774 "AI 안다"는 87%, 정작 이해는 18%뿐... 해외 생성형 AI 인식 조사 결과 충격 aimatters갤로그로 이동합니다. 12.16 56 0
1773 [12월 16일 AI 뉴스 브리핑] 리벨리온, 5년 만에 AI 반도체 국가대표 자리매김 외 aimatters갤로그로 이동합니다. 12.16 82 0
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2