디시인사이드 갤러리

갤러리 이슈박스, 최근방문 갤러리

갤러리 본문 영역

게임 속 7명의 캐릭터를 동시에 조종하는 AI가 등장했다

aimatters갤로그로 이동합니다. 2026.04.09 13:02:57
조회 1155 추천 1 댓글 2


최첨단 AI 영상 생성 모델도 "빨간 삼각형은 오른쪽, 파란 사각형은 위로"라는 단순한 명령을 제대로 수행하지 못한다. 구글 딥마인드(Google DeepMind)의 Veo 3를 포함한 기존 모델들이 이 기초적인 다중 주체 제어에서 어려움을 겪는다는 사실이 논문을 통해 밝혀졌다. 스냅 리서치(Snap Research), 옥스퍼드 대학(University of Oxford), 토론토 대학(University of Toronto) 공동 연구팀이 2026년 4월 공개한 'ActionParty'는 최대 7명의 플에이어를 동시에 제어할 수 있는 세계 최초의 영상 월드 모델(World Model)이다. 여러 캐릭터를 동시에 정확하게 제어할 수 있다는 점에서, AI 기반 인터랙티브 게임 엔진의 실용화 가능성을 한 단계 끌어올린 연구로 주목받고 있다.



그림 1. (좌) 기존 AI의 행동 바인딩 실패 사례, (우) ActionParty의 다중 주체 정확 제어 결과

그림 1. (좌) 기존 AI의 행동 바인딩 실패 사례, (우) ActionParty의 다중 주체 정확 제어 결과




"삼각형은 왼쪽, 사각형은 오른쪽" — AI가 이걸 못 한다

행동 바인딩(Action Binding) 문제는 AI 영상 생성 분야에서 오랫동안 외면된 근본적인 결함이다. 행동 바인딩이란 특정 명령(행동)을 영상 속 올바른 대상(주체)에 정확히 연결하는 능력을 말한다. 예를 들어 "캐릭터 A는 앞으로, 캐릭터 B는 왼쪽으로 이동하라"는 지시를 받았을 때, AI가 각 명령을 정확히 해당 캐릭터에만 적용해야 하는 것이다.

논문은 단순히 두 개의 기하학적 도형이 배경 위에서 움직이는 매우 단순한 환경에서 실험을 시작한다. 결과는 충격적이다. Veo 3를 포함한 최신 영상 생성 AI들이 "삼각형은 아래로, 사각형은 왼쪽으로"처럼 초보적인 명령 조합에서도 주체와 행동을 뒤섞어버린다. 명령이 연속으로 이어질수록 오류는 눈덩이처럼 불어난다. 이는 단순한 버그가 아니라, 기존 확산 모델(Diffusion Model)이 여러 개의 조건 신호를 받았을 때 일부를 무시하거나 뒤섞는 구조적 한계에서 비롯된 것이다.



7명을 동시에 제어하는 ActionParty의 핵심 원리

ActionParty는 이 문제를 해결하기 위해 주체 상태 토큰(Subject State Token)이라는 개념을 도입했다. 이것은 영상 속 각 캐릭터의 현재 위치를 나타내는 좌표값(2D 좌표)을 AI 내부의 잠재 변수(Latent Variable)로 표현하는 장치다. 마치 여러 명이 동시에 움직이는 무대에서, 각 배우에게 고유한 GPS 추적기를 달아 누가 어디 있는지를 모델이 항상 인식하게 만드는 것과 같다.

기술적으로 더 중요한 것은 주의 마스크(Attention Mask)와 3D 회전 위치 임베딩(RoPE, Rotary Position Embedding)을 결합한 방식이다. 교차 주의(Cross-Attention) 단계에서는 마스크를 통해 캐릭터 A의 상태 토큰이 오직 캐릭터 A의 행동 신호만 받도록 강제한다. 이를 통해 "B의 명령이 A에게 스며드는" 혼선을 원천 차단한다. 자기 주의(Self-Attention) 단계에서는 RoPE 바이어싱으로 각 주체 토큰을 영상 내 해당 캐릭터의 실제 위치 근처 화소(Pixel)에 자동으로 묶어준다. 결과적으로 모델이 전체 화면에서 특정 캐릭터를 찾는 어려운 과제 대신, 이전 프레임에서 캐릭터가 있던 위치 주변만 살펴보는 훨씬 쉬운 과제로 문제를 축소시킨다.

연구팀은 이 아키텍처를 공개 오픈소스 영상 생성 모델인 Wan2.1-1.3B(완2.1-1.3B)를 기반으로 구현했다. 7명 기준으로 주체 상태 토큰 추가에 따른 연산 오버헤드는 약 6% 수준이다.




그림 4. 각 방법론별 행동 바인딩 정성 비교 — ActionParty만 정확한 주체 추적 성공

그림 4. 각 방법론별 행동 바인딩 정성 비교 — ActionParty만 정확한 주체 추적 성공




기존 최강 모델 대비 5배 이상의 정확도

ActionParty의 성능은 멜팅팟(Melting Pot) 벤치마크 — 46개의 서로 다른 규칙을 가진 2D 멀티플레이어 게임 환경 모음 — 에서 검증됐다. 핵심 지표인 이동 정확도(Movement Accuracy, MA)에서 ActionParty는 0.779를 기록했다. 비교 대상인 텍스트 행동(Text-Action) 방식이 0.158에 그친 것과 비교하면 약 5배 높은 수치다. 이 수치 차이가 실제로 얼마나 큰 의미인지를 이해하려면, 이 벤치마크가 4단계의 순차적 행동을 연속으로 평가한다는 점을 고려해야 한다. 첫 단계부터 방향을 잘못 잡기 시작하는 기존 모델들은 시간이 지날수록 오류가 누적되어 4단계 이후에는 정확도가 거의 0에 수렴한다. 반면 ActionParty는 4단계 내내 안정적인 정확도를 유지한다.

주체 보존율(Subject Preservation)도 0.903으로, 가장 가까운 기존 방식(0.668)보다 월등히 높다. 기존 모델들이 행동을 잘못 연결하다 아예 화면에서 캐릭터가 사라지는 경향이 있는 것과 달리, ActionParty는 제어하는 모든 캐릭터를 끝까지 화면에 유지한다. 특히 게임 상황에 따라 효과가 다르게 발현되는 복잡한 '상호작용(Interact)' 행동에서 기존 방식보다 2배 이상 높은 성능을 보인다.



AI 게임 엔진 실용화, 현재 위치는 어디인가

ActionParty는 2D 픽셀아트 게임이라는 비교적 통제된 환경에서 검증됐다는 점에서 아직 한계도 뚜렷하다. 논문 스스로도 캐릭터 좌표 예측이 빗나가면 장기적으로 오차가 누적될 수 있고, 일부 캐릭터가 화면에서 사라지는 현상이 여전히 발생한다고 밝힌다. 실시간 상호작용을 위한 처리 속도도 아직 개선이 필요한 영역이다.

그럼에도 이 연구가 중요한 이유는 방향성 때문이다. 기존의 '단일 주체, 1인칭 시점' 세계 모델 연구 흐름에서 벗어나 복수 주체를 하나의 영상 안에서 동시에 제어한 것을 46개 환경에 걸쳐 실증한 최초의 사례이다. 이것이 3D 게임, 자율주행 시뮬레이터, 멀티 에이전트 로봇 훈련 환경으로 확장될 가능성은 두고 볼 필요가 있다. 행동 바인딩은 지금까지 '해결되지 않은 AI 영상의 구조적 결함'으로 분류돼 왔는데, ActionParty는 그 문제에 처음으로 체계적인 해법을 제시했다는 점에서 후속 연구의 출발점이 될 가능성이 있다.



FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 행동 바인딩(Action Binding) 문제가 왜 기존 AI에서 발생하나요?

행동 바인딩은 AI 영상 생성 모델이 여러 명령과 여러 대상을 동시에 처리할 때 특정 명령을 올바른 대상에 연결하지 못하는 현상입니다. 기존 확산 모델은 여러 조건 신호를 받으면 일부를 무시하거나 혼합하는 구조적 경향이 있어, 멀티 에이전트 환경에서 행동이 엉뚱한 캐릭터에 적용되는 오류가 발생합니다.

Q. ActionParty는 어떤 게임이나 상황에서 활용될 수 있나요?

현재는 멜팅팟(Melting Pot) 벤치마크의 46가지 2D 멀티플레이어 게임 환경에서 검증됐습니다. 향후 인터랙티브 게임 엔진, 멀티 에이전트 로봇 훈련 시뮬레이터, 자율주행 시나리오 생성 등 여러 주체가 동시에 행동하는 환경으로의 확장이 기대됩니다.

Q. 주체 상태 토큰(Subject State Token)이란 무엇인가요?

영상 속 각 캐릭터의 현재 위치(2D 좌표)를 AI가 명시적으로 추적하는 내부 변수입니다. 각 캐릭터에 고유한 위치 정보를 부여해 어떤 명령이 어떤 캐릭터에게 적용돼야 하는지를 모델이 혼동 없이 처리할 수 있게 해줍니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.

리포트명: ActionParty: Multi-Subject Action Binding in Generative Video Games

이미지 출처: AI 생성 콘텐츠

해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.



추천 비추천

1

고정닉 0

3

댓글 영역

전체 댓글 0
본문 보기

하단 갤러리 리스트 영역

왼쪽 컨텐츠 영역

갤러리 리스트 영역

갤러리 리스트
번호 제목 글쓴이 작성일 조회 추천
설문 팀 탈퇴를 가장 후회할 것 같은 스타는? 운영자 26/05/04 - -
2676 구글 계정 하나로 PPT·웹페이지·팟캐스트 뚝딱…제미나이 무료버전의 진짜 위력
aimatters갤로그로 이동합니다.
05.08 31 0
2675 [에이-아이랑] 매일이 어린이날 같기를 - AI 시대의 또 다른 놀이터
aimatters갤로그로 이동합니다.
05.08 14 1
2674 에이서, 지마켓 '빅스마일데이'서 게이밍·AI 노트북 최대 36% 할인
aimatters갤로그로 이동합니다.
05.08 24 0
2673 AMD, 기존 데이터센터 그대로 쓰는 엔터프라이즈 AI GPU '인스팅트 MI350P PCIe' 출시
aimatters갤로그로 이동합니다.
05.08 76 0
2672 픽스AI, 자연어로 캐릭터·텍스트·배경 수정하는 AI 이미지 편집 모델 'Edit Pro' 공개
aimatters갤로그로 이동합니다.
05.08 12 1
2671 오픈AI, GPT-5.5 기반 사이버 보안 접근 확대… 검증된 방어자에 'TAC·GPT-5.5-Cyber' 프리뷰 제공
aimatters갤로그로 이동합니다.
05.08 11 0
2670 수학 잘하는 GPT와 수학 못하는 LSTM의 차이
aimatters갤로그로 이동합니다.
05.08 30 0
2669 구글,이 AI 이미지 모델을 4분의 1로 줄였다, 같은 부품을 반복해서 쓰는 기술의 비밀
aimatters갤로그로 이동합니다.
05.08 14 0
2668 "AI 정책의 진짜 권력은 워싱턴에 있다"… 오픈AI·앤트로픽, 2026 1분기 로비 지출 사상 최대
aimatters갤로그로 이동합니다.
05.08 16 0
2667 Genesis AI, 'GENE-26.5' 공개… 인간 수준 손 조작 가능한 모델 타사도 쓸 수 있게 한다
aimatters갤로그로 이동합니다.
05.08 13 0
2666 "AI 후퇴인가, 정리인가"… 마이크로소프트, 윈도우 11 코파일럿 버튼 대거 제거
aimatters갤로그로 이동합니다.
05.08 76 0
2665 구글, Fitbit 앱을 'Google Health'로 리브랜드… 제미나이 헬스 코치·화면 없는 'Fitbit Air' 동시 공개
aimatters갤로그로 이동합니다.
05.08 77 0
2664 오픈AI, 자해 위험 감지 시 가족·친구에게 알리는 'Trusted Contact' 기능 출시
aimatters갤로그로 이동합니다.
05.08 11 0
2663 메타코리아·디지털리터러시협회, '2026 미래교육 심포지엄' 성료… 아시아 8개국 'AI 리터러시' 백서 발간
aimatters갤로그로 이동합니다.
05.08 9 0
2662 DJI, 프로급 프레이밍·추적 'Osmo Mobile 8P' 글로벌 출시… ActiveTrack 8.0·Apple DockKit 지원
aimatters갤로그로 이동합니다.
05.08 14 0
2661 오픈AI, '챗GPT 광고 파일럿' 한국 포함 5개국 신규 확대… 무료·고(Go) 요금제 성인 대상
aimatters갤로그로 이동합니다.
05.08 25 0
2660 모질라 "클로드 미토스가 찾은 파이어폭스 취약점 271개, 진짜였다"고 밝혀
aimatters갤로그로 이동합니다.
05.08 13 0
2659 구글 '시간 끌기' 실패… 법원 "검색 데이터 지금 바로 공개하라"
aimatters갤로그로 이동합니다.
05.08 73 0
2658 美 대학용 학습 관리 시스템 'Canvas' 사이버 사고 — "3.65TB·8천여 기관 데이터 탈취" 주장
aimatters갤로그로 이동합니다.
05.08 24 0
2657 미국 AI 시대 전력난에 '발코니 태양광' 허용키로… 콜로라도, 플러그인 솔라 합법화
aimatters갤로그로 이동합니다.
05.08 26 0
2656 "유럽판 오픈AI"… a16z, 스웨덴 AI 스타트업 'Pit'에 234억 원 투자
aimatters갤로그로 이동합니다.
05.08 13 0
2655 오픈AI, 음성 API에 'GPT-Realtime-2' 등 신모델 3종 공개… 70개 언어 동시통역까지
aimatters갤로그로 이동합니다.
05.08 13 0
2654 [AI와 인간 사이] Ontology Again, 왜 온톨로지는 AI와 함께 다시 돌아왔을까?
aimatters갤로그로 이동합니다.
05.07 29 0
2653 오픈AI·데이원컴퍼니, 어버이날 맞아 시니어 '챗GPT 교육' 행사 개최 — 일상·세컨드 커리어까지
aimatters갤로그로 이동합니다.
05.07 18 0
2652 스페이스X, '팰컨 9 시대' 마무리 단계 진입 — 앤트로픽과 우주 컴퓨팅 협력하나
aimatters갤로그로 이동합니다.
05.07 758 3
2651 마이크로소프트, '청정 에너지 약속' 무기한 연기 검토 — AI 데이터센터 붐이 ESG 흔든다 [2]
aimatters갤로그로 이동합니다.
05.07 921 4
2650 스냅, 퍼플렉시티와 4억 달러 통합 계약 '우호적 종료' — AI 검색 직접 결합 백지화
aimatters갤로그로 이동합니다.
05.07 16 0
2649 솔트웨어, 'AI EXPO 2026' 참가 — '사피가디언' 앞세워 생성형 AI 보안 전략 제시
aimatters갤로그로 이동합니다.
05.07 18 0
2648 드롭박스, 사우스베이스 컨스트럭션 디지털 전환 지원 — 'Dropbox Dash'로 건설사 AX 지원한다
aimatters갤로그로 이동합니다.
05.07 27 0
2647 세일즈포스 태블로, '에이전틱 애널리틱스 플랫폼' 공개 — 3,300만 시맨틱 모델로 분석도 에이전트가
aimatters갤로그로 이동합니다.
05.07 13 0
2646 코엑스에 등장한 'AI 신당' — 에이전트 스테이션, AI 무당 '연아' 첫 공개
aimatters갤로그로 이동합니다.
05.07 33 0
2645 Modo AI, 제품 사진 1장으로 스튜디오 사진 무한 생성
aimatters갤로그로 이동합니다.
05.07 34 0
2644 미루웨어, AI EXPO 2026서 기가바이트·인피니틱스 AI 솔루션 대거 공개
aimatters갤로그로 이동합니다.
05.07 28 0
2643 AI 트레이딩 모델 대결 — "최신 모델도 대부분 손실 입어"
aimatters갤로그로 이동합니다.
05.07 37 0
2642 코닝-엔비디아 5억 달러 광섬유 공급 계약 — 광섬유 전송 병목도 해결한다
aimatters갤로그로 이동합니다.
05.07 101 0
2641 NIST CAISI, 딥시크 V4 Pro 평가 결과 발표 — "미국 최신 모델들과 8개월 격차"
aimatters갤로그로 이동합니다.
05.07 21 0
2640 MS, 간호사 주간 맞아 'Dragon Copilot for Nurses' 발표 — 환자와 대화하면 자동으로 차트 작성한다
aimatters갤로그로 이동합니다.
05.07 31 0
2639 삼성전자 시총 1조 달러 돌파 — AI 칩 수요 폭발에 KOSPI 사상 최고
aimatters갤로그로 이동합니다.
05.07 86 0
2638 클로드, MS 365 전면 통합 — 엑셀·파워포인트·워드·아웃룩 앱 간 데이터 공유 클로드에서 가능해
aimatters갤로그로 이동합니다.
05.07 16 0
2637 앤트로픽 'Code with Claude 2026' 키노트... 멀티 에이전트 오케스트레이션·드리밍·아웃컴 공개
aimatters갤로그로 이동합니다.
05.07 17 0
2636 앤트로픽-스페이스X, 콜로서스 1 데이터센터 컴퓨팅 파트너십 체결... 엔비디아 칩 22만장 확보했다
aimatters갤로그로 이동합니다.
05.07 14 0
2635 한국 수출기업 78%가 "AI 필요하다" 인정했지만, 실제로 쓰는 곳은 17%뿐인 이유 [3]
aimatters갤로그로 이동합니다.
05.07 359 0
2634 사람은 100점, 최첨단 AI는 60점, 시야각 회전시키면 못 푸는 비전 LLM 머릿속 들여다보니
aimatters갤로그로 이동합니다.
05.07 21 0
2633 한 번 날리면 끝, 찍고 나서 화각 바꾸는 DJI 아바타 360… '드론 혁명'
aimatters갤로그로 이동합니다.
05.06 21 0
2632 AIWORKX, AI EXPO KOREA 2026 참가... '업무 완결형' AxDC 적용으로 업무 끝낸다
aimatters갤로그로 이동합니다.
05.06 19 0
2631 투비소프트, 5월 27일 코엑스서 'Grand Seminar 2026' 개최 — 차세대 AI 로우코드 'N Pangea' 공개
aimatters갤로그로 이동합니다.
05.06 28 0
2630 펜실베이니아서 Character.AI 첫 제소... 챗봇이 '면허 정신과 의사' 행세
aimatters갤로그로 이동합니다.
05.06 27 0
2629 판탈라사, 1.4억 달러 유치... 태평양에 떠 있는 'AI 데이터센터' 2026년 시범 가동
aimatters갤로그로 이동합니다.
05.06 38 0
2628 AMD '데이터센터 매출 57%↑'에 사상 최고가 근접... 2분기 가이던스도 컨센 상회
aimatters갤로그로 이동합니다.
05.06 18 0
2627 슈퍼마이크로, AI 열풍 타고 수익성까지 잡았다…주가 시간외 급등... 분기 매출 11.2~12.5억
aimatters갤로그로 이동합니다.
05.06 26 1
갤러리 내부 검색
제목+내용게시물 정렬 옵션

오른쪽 컨텐츠 영역

실시간 베스트

1/8

디시미디어

디시이슈

1/2