게임 속 7명의 캐릭터를 동시에 조종하는 AI가 등장했다

AI 매터스 갤러리

자동 짤방 이미지

이미지가 없습니다.

자동 짤방으로 사용할 이미지를 등록해 주세요.

1/3

SK하이닉스 하청노동자들, 직접 교섭 요구 https://n.news.naver.com/mnews/article/081/0003640154 - dc official App- 겨우 500만원밖에 안주냐고 시위중인 하이닉스 하청노동자들 작성자 : Trud

게임 속 7명의 캐릭터를 동시에 조종하는 AI가 등장했다

aimatters

2026.04.09 13:02:57

조회 1146 추천 1 댓글 2

최첨단 AI 영상 생성 모델도 "빨간 삼각형은 오른쪽, 파란 사각형은 위로"라는 단순한 명령을 제대로 수행하지 못한다. 구글 딥마인드(Google DeepMind)의 Veo 3를 포함한 기존 모델들이 이 기초적인 다중 주체 제어에서 어려움을 겪는다는 사실이 논문을 통해 밝혀졌다. 스냅 리서치(Snap Research), 옥스퍼드 대학(University of Oxford), 토론토 대학(University of Toronto) 공동 연구팀이 2026년 4월 공개한 'ActionParty'는 최대 7명의 플에이어를 동시에 제어할 수 있는 세계 최초의 영상 월드 모델(World Model)이다. 여러 캐릭터를 동시에 정확하게 제어할 수 있다는 점에서, AI 기반 인터랙티브 게임 엔진의 실용화 가능성을 한 단계 끌어올린 연구로 주목받고 있다.

그림 1. (좌) 기존 AI의 행동 바인딩 실패 사례, (우) ActionParty의 다중 주체 정확 제어 결과

"삼각형은 왼쪽, 사각형은 오른쪽" — AI가 이걸 못 한다

행동 바인딩(Action Binding) 문제는 AI 영상 생성 분야에서 오랫동안 외면된 근본적인 결함이다. 행동 바인딩이란 특정 명령(행동)을 영상 속 올바른 대상(주체)에 정확히 연결하는 능력을 말한다. 예를 들어 "캐릭터 A는 앞으로, 캐릭터 B는 왼쪽으로 이동하라"는 지시를 받았을 때, AI가 각 명령을 정확히 해당 캐릭터에만 적용해야 하는 것이다.

논문은 단순히 두 개의 기하학적 도형이 배경 위에서 움직이는 매우 단순한 환경에서 실험을 시작한다. 결과는 충격적이다. Veo 3를 포함한 최신 영상 생성 AI들이 "삼각형은 아래로, 사각형은 왼쪽으로"처럼 초보적인 명령 조합에서도 주체와 행동을 뒤섞어버린다. 명령이 연속으로 이어질수록 오류는 눈덩이처럼 불어난다. 이는 단순한 버그가 아니라, 기존 확산 모델(Diffusion Model)이 여러 개의 조건 신호를 받았을 때 일부를 무시하거나 뒤섞는 구조적 한계에서 비롯된 것이다.

7명을 동시에 제어하는 ActionParty의 핵심 원리

ActionParty는 이 문제를 해결하기 위해 주체 상태 토큰(Subject State Token)이라는 개념을 도입했다. 이것은 영상 속 각 캐릭터의 현재 위치를 나타내는 좌표값(2D 좌표)을 AI 내부의 잠재 변수(Latent Variable)로 표현하는 장치다. 마치 여러 명이 동시에 움직이는 무대에서, 각 배우에게 고유한 GPS 추적기를 달아 누가 어디 있는지를 모델이 항상 인식하게 만드는 것과 같다.

기술적으로 더 중요한 것은 주의 마스크(Attention Mask)와 3D 회전 위치 임베딩(RoPE, Rotary Position Embedding)을 결합한 방식이다. 교차 주의(Cross-Attention) 단계에서는 마스크를 통해 캐릭터 A의 상태 토큰이 오직 캐릭터 A의 행동 신호만 받도록 강제한다. 이를 통해 "B의 명령이 A에게 스며드는" 혼선을 원천 차단한다. 자기 주의(Self-Attention) 단계에서는 RoPE 바이어싱으로 각 주체 토큰을 영상 내 해당 캐릭터의 실제 위치 근처 화소(Pixel)에 자동으로 묶어준다. 결과적으로 모델이 전체 화면에서 특정 캐릭터를 찾는 어려운 과제 대신, 이전 프레임에서 캐릭터가 있던 위치 주변만 살펴보는 훨씬 쉬운 과제로 문제를 축소시킨다.

연구팀은 이 아키텍처를 공개 오픈소스 영상 생성 모델인 Wan2.1-1.3B(완2.1-1.3B)를 기반으로 구현했다. 7명 기준으로 주체 상태 토큰 추가에 따른 연산 오버헤드는 약 6% 수준이다.

그림 4. 각 방법론별 행동 바인딩 정성 비교 — ActionParty만 정확한 주체 추적 성공

기존 최강 모델 대비 5배 이상의 정확도

ActionParty의 성능은 멜팅팟(Melting Pot) 벤치마크 — 46개의 서로 다른 규칙을 가진 2D 멀티플레이어 게임 환경 모음 — 에서 검증됐다. 핵심 지표인 이동 정확도(Movement Accuracy, MA)에서 ActionParty는 0.779를 기록했다. 비교 대상인 텍스트 행동(Text-Action) 방식이 0.158에 그친 것과 비교하면 약 5배 높은 수치다. 이 수치 차이가 실제로 얼마나 큰 의미인지를 이해하려면, 이 벤치마크가 4단계의 순차적 행동을 연속으로 평가한다는 점을 고려해야 한다. 첫 단계부터 방향을 잘못 잡기 시작하는 기존 모델들은 시간이 지날수록 오류가 누적되어 4단계 이후에는 정확도가 거의 0에 수렴한다. 반면 ActionParty는 4단계 내내 안정적인 정확도를 유지한다.

주체 보존율(Subject Preservation)도 0.903으로, 가장 가까운 기존 방식(0.668)보다 월등히 높다. 기존 모델들이 행동을 잘못 연결하다 아예 화면에서 캐릭터가 사라지는 경향이 있는 것과 달리, ActionParty는 제어하는 모든 캐릭터를 끝까지 화면에 유지한다. 특히 게임 상황에 따라 효과가 다르게 발현되는 복잡한 '상호작용(Interact)' 행동에서 기존 방식보다 2배 이상 높은 성능을 보인다.

AI 게임 엔진 실용화, 현재 위치는 어디인가

ActionParty는 2D 픽셀아트 게임이라는 비교적 통제된 환경에서 검증됐다는 점에서 아직 한계도 뚜렷하다. 논문 스스로도 캐릭터 좌표 예측이 빗나가면 장기적으로 오차가 누적될 수 있고, 일부 캐릭터가 화면에서 사라지는 현상이 여전히 발생한다고 밝힌다. 실시간 상호작용을 위한 처리 속도도 아직 개선이 필요한 영역이다.

그럼에도 이 연구가 중요한 이유는 방향성 때문이다. 기존의 '단일 주체, 1인칭 시점' 세계 모델 연구 흐름에서 벗어나 복수 주체를 하나의 영상 안에서 동시에 제어한 것을 46개 환경에 걸쳐 실증한 최초의 사례이다. 이것이 3D 게임, 자율주행 시뮬레이터, 멀티 에이전트 로봇 훈련 환경으로 확장될 가능성은 두고 볼 필요가 있다. 행동 바인딩은 지금까지 '해결되지 않은 AI 영상의 구조적 결함'으로 분류돼 왔는데, ActionParty는 그 문제에 처음으로 체계적인 해법을 제시했다는 점에서 후속 연구의 출발점이 될 가능성이 있다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 행동 바인딩(Action Binding) 문제가 왜 기존 AI에서 발생하나요?

행동 바인딩은 AI 영상 생성 모델이 여러 명령과 여러 대상을 동시에 처리할 때 특정 명령을 올바른 대상에 연결하지 못하는 현상입니다. 기존 확산 모델은 여러 조건 신호를 받으면 일부를 무시하거나 혼합하는 구조적 경향이 있어, 멀티 에이전트 환경에서 행동이 엉뚱한 캐릭터에 적용되는 오류가 발생합니다.

Q. ActionParty는 어떤 게임이나 상황에서 활용될 수 있나요?

현재는 멜팅팟(Melting Pot) 벤치마크의 46가지 2D 멀티플레이어 게임 환경에서 검증됐습니다. 향후 인터랙티브 게임 엔진, 멀티 에이전트 로봇 훈련 시뮬레이터, 자율주행 시나리오 생성 등 여러 주체가 동시에 행동하는 환경으로의 확장이 기대됩니다.

Q. 주체 상태 토큰(Subject State Token)이란 무엇인가요?

영상 속 각 캐릭터의 현재 위치(2D 좌표)를 AI가 명시적으로 추적하는 내부 변수입니다. 각 캐릭터에 고유한 위치 정보를 부여해 어떤 명령이 어떤 캐릭터에게 적용돼야 하는지를 모델이 혼동 없이 처리할 수 있게 해줍니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: ActionParty: Multi-Subject Action Binding in Generative Video Games

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

인기 기사

고정닉 0

원본 첨부파일 3본문 이미지 다운로드

전체 댓글 0개

등록순 최신순 답글순

본문 보기

타인의 권리를 침해하거나 명예를 훼손하는 댓글은 운영원칙 및 관련 법률에 제재를 받을 수 있습니다.
Shift+Enter 키를 동시에 누르면 줄바꿈이 됩니다.

갤러리 리스트
번호	제목	글쓴이	작성일	조회	추천
설문	바른 이미지 때문에 작은 논란도 크게 부각될 것 같은 스타는?	운영자	26/04/27	-	-
공지	디시콘 개선 안내	운영자	26/04/29	-	-
2596	무신사는 개발자 면접에서 코덱스를 테스트한다 — 오픈AI가 공개한 기업 AI 전환의 최전선	aimatters	04.30	7	0
2595	[AI와 인간 사이] 왜 인간은 대체될 때까지 기술 발전을 멈추지 않을까? AI라는 폭주기관차	aimatters	04.30	9	0
2594	네이버, AI 대화형 검색 'AI탭' 베타 출시… 네이버플러스 회원 대상 '탐색→실행' 통합	aimatters	04.30	8	0
2593	Thinking Machines Lab, 메타 AI 핵심 인재 영입과 구글 클라우드 수십억 달러 계약 동시 성사	aimatters	04.30	8	0
2592	배관공을 위한 AI 에이전트 Avoca, 1억 2,500만 달러 조달로 기업가치 10억 달러 돌파	aimatters	04.30	8	0
2591	오픈AI 코덱스 시스템 프롬프트에 '고블린 금지령'… AI 에이전트의 기괴한 집착	aimatters	04.30	9	0
2590	트럼프∙FCC, ABC 방송 면허 30일 내 재신청 명령… 디즈니 맞설 의지 있으면 이긴다	aimatters	04.30	7	0
2589	캐나다 AI 기업 코히어, 독일 알레프 알파 200억 달러에 인수… 캐나다와 독일 소버린 AI 참전	aimatters	04.30	7	0
2588	머리카락 굵기 광 회로 하나가 슈뢰딩거 고양이 양자 상태를 깨웠다	aimatters	04.30	8	0
2587	추상화한 점 하나로 배운 로봇, 현실 미로를 73% 통과하다	aimatters	04.30	7	0
2586	AI 데이터센터 원전 붐의 이면… MIT "핵폐기물 처리 전략 지금 세워야"	aimatters	04.30	12	0
2585	구글, 1분기 유료 구독자 2,500만 명 추가 총 3억 5,000만 명… 유튜브·구글 원이 견인 [1]	aimatters	04.30	591	0
2584	EU AI Act 디지털 옴니버스 3자 협상 12시간 만에 결렬… 고위험 AI 의무 8월 시행 불투명	aimatters	04.30	7	0
2583	구글 클라우드 분기 매출 첫 200억 달러 돌파… "더 벌 수 있었는데" 용량 부족 고백	aimatters	04.30	12	0
2582	인간형 로봇 2026: BMW 공장·아마존 물류 현장 속속 배치… '수렴의 순간' 도래	aimatters	04.30	27	0
2581	클로드에서 포토샵·일러스트레이터 직접 쓴다…어도비 크리에이티브 커넥터 공개	aimatters	04.29	38	0
2580	예산 깎인 시대, 맥라렌 F1이 2년 연속 챔피언이 된 비결은 더 똑똑한 AI가 아니었다	aimatters	04.29	12	0
2579	아마존, 상품 페이지에 AI 오디오 Q&A 도입… 음성으로 실시간 제품 질문·답변	aimatters	04.29	14	0
2578	세일즈포스-구글 클라우드, AI 에이전트 통합 발표… 구글 워크스페이스에 AI 에이전트 즉시 배포	aimatters	04.29	10	0
2577	네이버-크리테오, 전략적 파트너십 체결… AI 광고 성과 최적화·오프사이트 확장 추진	aimatters	04.29	28	0
2576	엘리스그룹-마키나락스, AI 풀스택 인프라 기반 국방·산업 AX MOU 체결	aimatters	04.29	36	0
2575	위로보틱스, 보행 보조 로봇 'WIM 프리미엄' 구독 서비스 체험 성료… 로봇도 구독한다	aimatters	04.29	10	0
2574	AMD, 'Advancing AI 2026' 개최 발표… 리사 수 CEO 참여, 7월 23일 샌프란시스코	aimatters	04.29	16	0
2573	더 강력한 3D AI 로봇이 오히려 멍청해진 진짜 이유, 코드 두 줄에 있었다	aimatters	04.29	16	0
2572	미 국방부, 역대 최대 1.5조 달러 예산 요청… AI·황금 돔·드론 집중 투자	aimatters	04.29	24	0
2571	2026년, AI 세계 모델과 물리적 AI 로봇 대규모 배포 원년 선언	aimatters	04.29	27	0
2570	개발자 90%가 AI 코딩 도구 사용… 클로드 코드, 소규모 팀 점유율 1위	aimatters	04.29	32	0
2569	고위험∙고기능 AI 업무 적용 EU AI법 준수 기한 2027~2028년으로 연장	aimatters	04.29	329	2
2568	메디케어 의료보험 AI 사전승인 파일럿 프로그램, 노인 치료 최대 20일 지연시킨다	aimatters	04.29	16	0
2567	구글, 미 국방부에 AI 기밀 군사 사용 허용… 직원 580명 반발에도 계약 강행	aimatters	04.29	502	4
2566	마이크로소프트 M365 코파일럿, 에이전트 모드 탑재… GPT-5.2로 업무 멀티 스텝 자동화	aimatters	04.29	31	0
2565	AI 데이터센터, 미국 신규 전력의 절반 차지… 2028년 12% 돌파 전망	aimatters	04.29	22	0
2564	앤트로픽, 클로드에 크리에이티브 도구 9종 통합… 블렌더·어도비·에이블톤 직접 연결	aimatters	04.29	69	0
2563	구글 딥마인드, 과기정통부와 AI 파트너십 체결…서울에 AI 캠퍼스 열고 알파폴드·알파게놈 공동 연구	aimatters	04.28	62	1
2562	오픈AI, 챗GPT에 '워크스페이스 에이전트' 출시…커스텀 GPT와 무엇이 다른가	aimatters	04.28	45	0
2561	파이온, 네이버 쇼핑라이브에 ‘AI 쇼호스트’ 도입…사람 출연 방송 매출 넘어섰다	aimatters	04.28	67	0
2560	소라2와 Veo3.1도 무너진 한 가지, 19개 항목으로 본 AI 애니메이션의 진짜 약점	aimatters	04.28	32	0
2559	AIWORKX, AI 에이전트 신뢰성 자동 검증해주는 ‘AgentRigor’ 4월 30일 출시	aimatters	04.28	29	0
2558	WSC Sports, 도쿄에서 아시아 첫 스포츠 미디어 서밋 성료…"AI가 팬 참여·수익화 바꾼다"	aimatters	04.28	32	0
2557	식스샵 프로, MCP 무료 개방…자연어로 쇼핑몰 만든다	aimatters	04.28	25	0
2556	사이버링크-인텔, AI 마케팅 디자인 ‘Promeo’ 글로벌 번들 파트너십 체결	aimatters	04.28	17	0
2555	[신간] “상상은 인간이 하고, 설계는 AI가 한다”…김우정의 ‘AI 스토리 엔지니어링’이 답하는 창작의 미래	aimatters	04.28	27	0
2554	커넥트와이즈, 자율주행처럼 AI 자율 실행하는 'zofiQ' 확대…인간 개입 절차 86% 감소	aimatters	04.28	19	0
2553	다른 제조사 칩 제조 도전장에도 엔비디아 신고가 행진…AI 낙관론에 S&P 500도 사상 최고치	aimatters	04.28	27	0
2552	구글 제미나이, '먼저 제안하는 AI'로 진화…프로액티브 어시스턴스 베타 발견 [15]	aimatters	04.28	1363	2
2551	딥시크 V4, 100만 토큰 컨텍스트로 '오픈웨이트' 정식 공개... 코드 전체 단일 프롬프트로 처리한다	aimatters	04.28	50	0
2550	중국, 메타의 '마누스' 2조 7000억 원 인수 차단…AI 패권전쟁 격화	aimatters	04.28	49	0
2549	알파고 이끈 딥마인드 출신 '데이비드 실버', 1조 5000억 원 시드 모금…유럽 최대 규모 [7]	aimatters	04.28	1095	0
2548	오픈AI, 퀄컴·미디어텍과 'AI 전용 스마트폰' 칩 개발…아이폰에 도전장	aimatters	04.28	23	0
2547	마이크로소프트-오픈AI '독점 계약' 끝…독점 계약 수익 분배 사라지고 아마존∙구글 손 잡나	aimatters	04.28	25	0