Agora-1: 멀티 에이전트 월드 모델 (Multi-Agent World Model)

Agora-1은 인간 또는 AI를 포함한 여러 참여자가 동일한 세계 시뮬레이션 내에서 실시간으로 공유하고 상호작용할 수 있도록 합니다.

Oliver Cameron

2026년 5월 18일

오늘 우리는 Agora-1을 출시하게 되어 매우 기쁩니다. 이는 월드 모델 (World Models)이 게임, 로보틱스 (Robotics), 국방, 교육, 파운데이션 모델 (Foundation Models) 등 다양한 분야에서 어떻게 새롭고 강력한 공유 경험을 가능하게 하는지 탐구하는 멀티 에이전트 월드 모델 시리즈의 첫 번째 모델입니다. 월드 모델은 임의의 환경에 대한 고충실도 시뮬레이션 (High-fidelity simulations)을 생성하는 강력한 도구이지만, 지금까지는 시뮬레이션된 세계 내에서 단일 활성 참여자에게만 국한되어 왔습니다. Agora-1을 통해 우리는 멀티 에이전트 월드 시뮬레이션 (Multi-agent world simulations)을 선보입니다.

멀티 에이전트 월드 모델을 탐구하기 위해, 우리는 Odyssey 팀의 많은 구성원이 성장하며 즐겼던 게임인 GoldenEye를 선택했습니다. 게임은 Atari, Minecraft, StarCraft, 그리고 이제 GoldenEye에 이르기까지 AI 연구를 위한 유용한 환경으로서 오랫동안 역할을 해왔습니다.

Agora-1은 최대 4명의 플레이어가 생성된 동일한 세계 내에서 실시간으로 상호작용할 수 있도록 합니다. 플레이어들은 공유된 데스매치 (Deathmatch) 시뮬레이션으로 매칭되며, 여기서 모든 참여자는 동일하게 생성된 세계와 동시에 상호작용합니다. 여러분이 경험하는 모든 것은 Agora-1에 의해 실시간으로 생성됩니다. 이 모델은 플레이어의 행동으로부터 상호작용을 시뮬레이션하고, 참여자 간에 공유된 세계 상태 (World state)를 유지하며, 생성된 픽셀을 모든 플레이어에게 동시에 스트리밍합니다. 결과적으로 Agora-1은 학습된 게임 엔진 (Learned game engine)으로서 기능합니다.

Agora-1이 구동하는 공유 데스매치 시뮬레이션

단일 에이전트에서 멀티 에이전트 월드 모델로

전통적인 월드 모델 (World Models)은 시뮬레이션 역학 (Simulation Dynamics)과 렌더링 (Rendering)을 단일 모델 내에서 결합합니다. 지금까지 Multiverse, Solaris, MultiGen을 포함하여 월드 모델 내 멀티 에이전트 상호작용을 탐구하는 여러 접근 방식이 있었습니다. Multiverse는 에이전트 상태를 하나의 "분할 화면 (split-screen)" 표현으로 연결하여, 여러 플레이어를 하나의 월드 상태 (World State)로 효과적으로 취급합니다. 반면, Solaris는 단일 자기회귀 확산 트랜스포머 (Autoregressive Diffusion Transformer)의 시퀀스 차원을 따라 각 참여자를 연결하여 더 견고한 공유 시뮬레이션을 생성합니다. 그러나 이 방식은 모델 컨텍스트 (Model Context)의 증가로 인해 플레이어 수에 따라 선형적으로 확장되지 않습니다. 또한, Multiverse와 Solaris 모두 플레이어들이 서로를 시야에서 놓칠 때 일관성을 견고하게 유지하는 데 어려움을 겪습니다.

Agora-1은 시뮬레이션과 렌더링을 분리함으로써 다른 방향을 탐구합니다. MultiGen과 유사하게, Agora-1은 참여자 간의 명시적인 공유 월드 상태를 유지합니다. 하지만 우리는 해당 공유 상태로부터 시뮬레이션 역학 및 렌더링을 모델링하는 데 있어 다른 접근 방식을 채택합니다. 이러한 기능들을 분리함으로써, Agora-1은 여러 개의 독립적인 관점에서 동일한 시뮬레이션된 세계의 일관된 뷰 (Views)를 생성할 수 있으며, 이를 통해 멀티플레이어 게임, 로보틱스 (Robotics), 다중 뷰 시뮬레이션 (Multi-view Simulation)과 같은 애플리케이션을 가능하게 합니다.

Agora-1의 아키텍처 (Architecture)

공유 월드 상태 학습 (Learning Shared World State)

Agora-1은 두 가지 별개의 기능을 학습합니다. 첫째, 플레이어의 상호작용에 반응하여 월드 상태가 시간에 따라 어떻게 진화하는지를 학습합니다. 이를 위해 우리는 하나 이상의 게임의 내부 상태에 대해 모델을 직접 학습시키며, Agora-1의 경우에는 GoldenEye를 사용합니다. 이 모델은 기저에 깔린 게임플레이 역학 (Gameplay Dynamics)과 플레이어의 행동으로부터 상태 전이 (State Transitions)가 어떻게 발생하는지를 학습합니다. 둘째, Agora-1은 해당 공유 상태를 시각적으로 렌더링하는 방법을 학습합니다. 이는 프롬프트 (Prompts), 이미지, 또는 기타 전통적인 컨디셔닝 신호 (Conditioning Signals) 대신, 공유된 게임 상태에 직접 조건화된 DiT 기반 월드 모델을 사용하여 수행됩니다.

이러한 분리를 현대적인 게임 엔진 (Game Engine)의 구조와 느슨하게 유사한 것으로 생각할 수 있습니다. 차이점은 두 구성 요소 모두 완전히 학습된 시스템이라는 점입니다. 이들은 하드코딩된 게임플레이 로직이나 렌더링 규칙에 의존하지 않고, 대신 데이터로부터 직접 학습합니다.

두 모델 모두 독특한 연구 과제를 제시합니다. 이산적인 (Discrete) 게임 상태는 대부분의 DiT 기반 월드 모델이 작동하는 연속적인 (Continuous) 시각적 도메인과 구조적으로 다르며, 게임플레이 상태 모델링을 위해 특별히 설계된 아키텍처와 대량의 구조화된 학습 데이터를 필요로 합니다. 동시에, 렌더링 모델은 동일한 공유 상태를 여러 관점에서 동시에 일관된 시각적 표현으로 생성하는 법을 학습해야 합니다. 이러한 아키텍처의 결과 중 하나는 기저의 게임 상태를 직접 조작할 수 있다는 것이며, 이를 통해 Agora-1은 원본 게임과 일치하는 게임플레이 역학을 유지하면서 완전히 새로운 레벨을 생성할 수 있습니다.

Agora-1의 월드 상태는 각 에이전트의 체력, 위치 등을 추적합니다

멀티 에이전트 상호작용을 파운데이션 모델 (Foundation Models)로 확장

공유 월드 상태의 스케일링 (Scaling Shared World State)

현재 Agora-1의 상태 모델은 비교적 단순합니다. 이는 근본적인 한계가 아닙니다. 원칙적으로 내부 상태 표현은 임의로 확장될 수 있으며, 이를 통해 점점 더 복잡한 시뮬레이션과 게임플레이 역학을 가능하게 합니다. 시간이 지남에 따라 우리는 이러한 시스템이 규칙과 상태 표현 전반에 걸쳐 일반화되어, 사용자와 모델 간의 상호작용으로부터 완전히 새로운 경험이 직접 생성될 수 있기를 기대합니다.

우리의 더 넓은 연구 초점은 멀티 에이전트 상호작용이 파운데이션 월드 모델의 개방형 행동 (Open-ended behavior)이나 범용성을 해치지 않으면서 어떻게 확장될 수 있는지를 이해하는 것입니다. 우리는 이것이 명시적으로 수작업으로 작성된 조정 메커니즘이 아닌, 학습된 시스템을 통해 달성 가능하다고 믿습니다. Agora-1과 같은 연구 환경은 이러한 문제들을 연구하기 위한 통제된 환경을 제공합니다.

멀티 에이전트 강화학습 (Multi-Agent Reinforcement Learning)

Agora-1은 또한 강화학습 (Reinforcement Learning, RL) 연구를 위한 유용한 환경입니다. 우리는 더 일반적인 에이전트 (Agent)를 향한 발전이 모델 아키텍처 (Model Architecture)가 아니라, 훈련 중에 사용 가능한 경험, 특히 자신의 능력을 향상시키는 상호작용을 능동적으로 찾아내는 에이전트의 능력에 의해 점점 더 병목 현상을 겪고 있다고 믿습니다. 전통적인 월드 모델 (World Model)은 단일 상호작용 참여자만을 지원하므로, 지원할 수 있는 강화학습 환경의 유형이 제한됩니다. 여기에는 월드 모델의 실패를 드러내고 그러한 실패로부터 새로운 훈련 데이터를 생성하도록 적대적 정책 (Adversarial Policy)을 훈련하는 우리의 최근 연구인 PROWL이 포함됩니다.

PROWL은 RL 에이전트가 게임 환경을 탐색하는 새로운 RL 기반 적대적 프레임워크입니다.

Agora-1은 이러한 단일 에이전트 제한을 제거합니다. 참여자 수가 증가함에 따라 결합 상호작용 공간 (Joint Interaction Space)은 조합론적으로 증가하며, 수동적으로 수집된 데모 (Demonstration)는 충돌, 협동 움직임, 경합 목표 및 기타 창발적 행동 (Emergent Behavior)과 같은 의미 있는 상호작용의 점점 더 작은 부분만을 다루게 됩니다. 멀티 에이전트 강화학습 (Multi-Agent Reinforcement Learning, MARL)은 개방형 상호작용 (Open-ended Interaction)을 통해 이러한 누락된 데이터를 생성할 수 있는 확장 가능한 메커니즘을 제공합니다. 시간이 지남에 따라 에이전트와 월드 모델은 함께 진화하며, 서로를 점점 더 어려운 영역으로 지속적으로 밀어붙일 수 있습니다.

상상된 멀티 에이전트 훈련 (Imagined Multi-Agent Training)

우리는 또한 Agora-1이 그 자체로 생성형 멀티 에이전트 시뮬레이터 (Generative Multi-Agent Simulator) 역할을 할 수 있다고 믿습니다. 멀티 에이전트 월드 모델은 효과적으로 학습된 협력 및 경쟁 시뮬레이션 환경입니다. 이러한 생성된 세계 내에서 완전히 훈련된 정책 (Policy)은 원래의 게임에 접근할 필요 없이 보지 못한 환경과 보지 못한 상호작용 파트너로 일반화될 수 있습니다. Agora-1은 이러한 유형의 상상된 훈련 (Imagined Training)을 위한 유용한 토대를 제공하여, 생성된 환경 내에서 완전히 학습하는 경쟁적 에이전트, 협력적 에이전트 및 혼합 인구 (Mixed Populations)를 가능하게 합니다.

게임을 넘어

마지막으로, Agora-1의 기반이 되는 아키텍처 (Architecture)는 게임에만 국한되지 않습니다. 많은 현실 세계의 시스템은 동일한 공유 환경 내에서 작동하는 다수의 에이전트 (Agents)를 필요로 합니다. 협동 로보틱스 (Collaborative robotics)가 한 가지 예로, 로봇들이 행동, 공간, 그리고 서로 간의 상호작용에 대해 공동으로 추론해야 합니다. 더 넓게는, 멀티 에이전트 월드 모델 (Multi-agent world models)이 전통적인 시뮬레이션 (Simulation)이나 게임 엔진 아키텍처로는 달성하기 어려운 새로운 형태의 인터랙티브 시스템 (Interactive systems)을 가능하게 할 수 있습니다. 연구자들과 개발자들이 이 모델들을 통해 무엇을 만들어낼지 매우 기대됩니다.

Agora-1 기반의 공유 데스매치 시뮬레이션

지금 바로 Agora-1을 경험해보세요

우리는 멀티 에이전트 월드 모델이 완전히 새로운 클래스의 인터랙티브 시스템으로 가는 문을 열 것이라고 믿습니다. Agora-1은 초기 연구 프리뷰 (Research preview) 단계이지만, 월드 모델이 공유 상호작용, 창발적 게임플레이 (Emergent gameplay), 협동 로보틱스, 그리고 시뮬레이션된 세계 안에서 에이전트들이 함께 학습하는 미래를 가리키고 있습니다. 능동적인 탐색과 발견을 통해 월드 모델을 개선할 수 있게 하는 PROWL과 같은 시스템과 결합된다면, 이러한 접근 방식들이 궁극적으로 개방형 시뮬레이션 세계 (Open-ended simulated worlds) 안에서 더욱 진보된 형태의 지능을 훈련하기 위한 토대를 형성할 수 있을 것이라 생각합니다.

이 프로젝트를 실현한 팀

Agora-1은 놀라운 Odyssey 팀 덕분에 가능했습니다.

Aravind Kaimal, James Grieve, Sirish Srinivasan, Vinh-Dieu Lam, Zygmunt Łenyk.

Ahmad Nazeri, Ahmet Hamdi Guzel, Amogh Adishesha, Andy Kolkhorst, Ben Graham, Derek Sarshad, Fabian Güra, Finley Code, Jenny Seidenschwarz, Jesse Allardice, Jessica Inman, Jonathan Sadeghi, Kaiwen Guo, Kristy McDonough, Nicolas Griffiths, Nima Rezaeian, Richard Shen, Robin Tweedie, Sarah King, Tobiah Rex, Vighnesh Birodkar.

Jeff Hawke, Oliver Cameron.