최첨단 AI 영상 생성 모델도 "빨간 삼각형은 오른쪽, 파란 사각형은 위로"라는 단순한 명령을 제대로 수행하지 못한다. 구글 딥마인드(Google DeepMind)의 Veo 3를 포함한 기존 모델들이 이 기초적인 다중 주체 제어에서 어려움을 겪는다는 사실이 논문을 통해 밝혀졌다. 스냅 리서치(Snap Research), 옥스퍼드 대학(University of Oxford), 토론토 대학(University of Toronto) 공동 연구팀이 2026년 4월 공개한 'ActionParty'는 최대 7명의 플에이어를 동시에 제어할 수 있는 세계 최초의 영상 월드 모델(World Model)이다. 여러 캐릭터를 동시에 정확하게 제어할 수 있다는 점에서, AI 기반 인터랙티브 게임 엔진의 실용화 가능성을 한 단계 끌어올린 연구로 주목받고 있다.
그림 1. (좌) 기존 AI의 행동 바인딩 실패 사례, (우) ActionParty의 다중 주체 정확 제어 결과
그림 1. (좌) 기존 AI의 행동 바인딩 실패 사례, (우) ActionParty의 다중 주체 정확 제어 결과
"삼각형은 왼쪽, 사각형은 오른쪽" — AI가 이걸 못 한다
행동 바인딩(Action Binding) 문제는 AI 영상 생성 분야에서 오랫동안 외면된 근본적인 결함이다. 행동 바인딩이란 특정 명령(행동)을 영상 속 올바른 대상(주체)에 정확히 연결하는 능력을 말한다. 예를 들어 "캐릭터 A는 앞으로, 캐릭터 B는 왼쪽으로 이동하라"는 지시를 받았을 때, AI가 각 명령을 정확히 해당 캐릭터에만 적용해야 하는 것이다.
논문은 단순히 두 개의 기하학적 도형이 배경 위에서 움직이는 매우 단순한 환경에서 실험을 시작한다. 결과는 충격적이다. Veo 3를 포함한 최신 영상 생성 AI들이 "삼각형은 아래로, 사각형은 왼쪽으로"처럼 초보적인 명령 조합에서도 주체와 행동을 뒤섞어버린다. 명령이 연속으로 이어질수록 오류는 눈덩이처럼 불어난다. 이는 단순한 버그가 아니라, 기존 확산 모델(Diffusion Model)이 여러 개의 조건 신호를 받았을 때 일부를 무시하거나 뒤섞는 구조적 한계에서 비롯된 것이다.
7명을 동시에 제어하는 ActionParty의 핵심 원리
ActionParty는 이 문제를 해결하기 위해 주체 상태 토큰(Subject State Token)이라는 개념을 도입했다. 이것은 영상 속 각 캐릭터의 현재 위치를 나타내는 좌표값(2D 좌표)을 AI 내부의 잠재 변수(Latent Variable)로 표현하는 장치다. 마치 여러 명이 동시에 움직이는 무대에서, 각 배우에게 고유한 GPS 추적기를 달아 누가 어디 있는지를 모델이 항상 인식하게 만드는 것과 같다.
기술적으로 더 중요한 것은 주의 마스크(Attention Mask)와 3D 회전 위치 임베딩(RoPE, Rotary Position Embedding)을 결합한 방식이다. 교차 주의(Cross-Attention) 단계에서는 마스크를 통해 캐릭터 A의 상태 토큰이 오직 캐릭터 A의 행동 신호만 받도록 강제한다. 이를 통해 "B의 명령이 A에게 스며드는" 혼선을 원천 차단한다. 자기 주의(Self-Attention) 단계에서는 RoPE 바이어싱으로 각 주체 토큰을 영상 내 해당 캐릭터의 실제 위치 근처 화소(Pixel)에 자동으로 묶어준다. 결과적으로 모델이 전체 화면에서 특정 캐릭터를 찾는 어려운 과제 대신, 이전 프레임에서 캐릭터가 있던 위치 주변만 살펴보는 훨씬 쉬운 과제로 문제를 축소시킨다.
연구팀은 이 아키텍처를 공개 오픈소스 영상 생성 모델인 Wan2.1-1.3B(완2.1-1.3B)를 기반으로 구현했다. 7명 기준으로 주체 상태 토큰 추가에 따른 연산 오버헤드는 약 6% 수준이다.
그림 4. 각 방법론별 행동 바인딩 정성 비교 — ActionParty만 정확한 주체 추적 성공
그림 4. 각 방법론별 행동 바인딩 정성 비교 — ActionParty만 정확한 주체 추적 성공
기존 최강 모델 대비 5배 이상의 정확도
ActionParty의 성능은 멜팅팟(Melting Pot) 벤치마크 — 46개의 서로 다른 규칙을 가진 2D 멀티플레이어 게임 환경 모음 — 에서 검증됐다. 핵심 지표인 이동 정확도(Movement Accuracy, MA)에서 ActionParty는 0.779를 기록했다. 비교 대상인 텍스트 행동(Text-Action) 방식이 0.158에 그친 것과 비교하면 약 5배 높은 수치다. 이 수치 차이가 실제로 얼마나 큰 의미인지를 이해하려면, 이 벤치마크가 4단계의 순차적 행동을 연속으로 평가한다는 점을 고려해야 한다. 첫 단계부터 방향을 잘못 잡기 시작하는 기존 모델들은 시간이 지날수록 오류가 누적되어 4단계 이후에는 정확도가 거의 0에 수렴한다. 반면 ActionParty는 4단계 내내 안정적인 정확도를 유지한다.
주체 보존율(Subject Preservation)도 0.903으로, 가장 가까운 기존 방식(0.668)보다 월등히 높다. 기존 모델들이 행동을 잘못 연결하다 아예 화면에서 캐릭터가 사라지는 경향이 있는 것과 달리, ActionParty는 제어하는 모든 캐릭터를 끝까지 화면에 유지한다. 특히 게임 상황에 따라 효과가 다르게 발현되는 복잡한 '상호작용(Interact)' 행동에서 기존 방식보다 2배 이상 높은 성능을 보인다.
AI 게임 엔진 실용화, 현재 위치는 어디인가
ActionParty는 2D 픽셀아트 게임이라는 비교적 통제된 환경에서 검증됐다는 점에서 아직 한계도 뚜렷하다. 논문 스스로도 캐릭터 좌표 예측이 빗나가면 장기적으로 오차가 누적될 수 있고, 일부 캐릭터가 화면에서 사라지는 현상이 여전히 발생한다고 밝힌다. 실시간 상호작용을 위한 처리 속도도 아직 개선이 필요한 영역이다.
그럼에도 이 연구가 중요한 이유는 방향성 때문이다. 기존의 '단일 주체, 1인칭 시점' 세계 모델 연구 흐름에서 벗어나 복수 주체를 하나의 영상 안에서 동시에 제어한 것을 46개 환경에 걸쳐 실증한 최초의 사례이다. 이것이 3D 게임, 자율주행 시뮬레이터, 멀티 에이전트 로봇 훈련 환경으로 확장될 가능성은 두고 볼 필요가 있다. 행동 바인딩은 지금까지 '해결되지 않은 AI 영상의 구조적 결함'으로 분류돼 왔는데, ActionParty는 그 문제에 처음으로 체계적인 해법을 제시했다는 점에서 후속 연구의 출발점이 될 가능성이 있다.
FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q. 행동 바인딩(Action Binding) 문제가 왜 기존 AI에서 발생하나요?
행동 바인딩은 AI 영상 생성 모델이 여러 명령과 여러 대상을 동시에 처리할 때 특정 명령을 올바른 대상에 연결하지 못하는 현상입니다. 기존 확산 모델은 여러 조건 신호를 받으면 일부를 무시하거나 혼합하는 구조적 경향이 있어, 멀티 에이전트 환경에서 행동이 엉뚱한 캐릭터에 적용되는 오류가 발생합니다.
Q. ActionParty는 어떤 게임이나 상황에서 활용될 수 있나요?
현재는 멜팅팟(Melting Pot) 벤치마크의 46가지 2D 멀티플레이어 게임 환경에서 검증됐습니다. 향후 인터랙티브 게임 엔진, 멀티 에이전트 로봇 훈련 시뮬레이터, 자율주행 시나리오 생성 등 여러 주체가 동시에 행동하는 환경으로의 확장이 기대됩니다.
Q. 주체 상태 토큰(Subject State Token)이란 무엇인가요?
영상 속 각 캐릭터의 현재 위치(2D 좌표)를 AI가 명시적으로 추적하는 내부 변수입니다. 각 캐릭터에 고유한 위치 정보를 부여해 어떤 명령이 어떤 캐릭터에게 적용돼야 하는지를 모델이 혼동 없이 처리할 수 있게 해줍니다.
댓글 영역
획득법
① NFT 발행
작성한 게시물을 NFT로 발행하면 일주일 동안 사용할 수 있습니다. (최초 1회)
② NFT 구매
다른 이용자의 NFT를 구매하면 한 달 동안 사용할 수 있습니다. (구매 시마다 갱신)
사용법
디시콘에서지갑연결시 바로 사용 가능합니다.