Qwen-AgentWorld: 범용 에이전트를 위한 언어 월드 모델 (Language World Models)
요약
Qwen-AgentWorld는 언어 모델 기반의 월드 모델을 통해 범용 에이전트의 능력을 확장하는 연구입니다. 7개 도메인을 시뮬레이션할 수 있는 대규모 언어 월드 모델을 소개하며, 에이전트 훈련을 위한 시뮬레이터 및 파운데이션 모델로서의 효용성을 입증했습니다.
핵심 포인트
- 7개 도메인을 시뮬레이션하는 최초의 언어 월드 모델 Qwen-AgentWorld 공개
- CPT, SFT, RL을 활용한 3단계 훈련 파이프라인 구축
- 에이전트 성능 평가를 위한 종합 벤치마크 AgentWorldBench 제시
- 에이전트 RL을 위한 확장 가능한 환경 시뮬레이터 역할 수행
월드 모델 (World Model)은 현재의 관찰 (Observations)과 행동 (Actions)을 기반으로 환경의 역학 (Environment Dynamics)을 예측하며, 추론 (Reasoning)과 계획 (Planning)을 위한 핵심적인 인지 메커니즘 역할을 합니다. 본 연구에서는 언어 모델 (Language Models)에 기반한 월드 모델링이 범용 에이전트 (General Agents)의 한계를 어떻게 더 확장할 수 있는지 조사합니다. (i) 먼저, 우리는 에이전트 환경 시뮬레이션을 위한 파운데이션 모델 (Foundation Models) 구축에 집중합니다. 우리는 긴 사고 사슬 (Long Chain-of-Thought) 추론을 통해 7개 도메인을 아우르는 에이전트 환경을 시뮬레이션할 수 있는 최초의 언어 월드 모델인 Qwen-AgentWorld-35B-A3B 및 Qwen-AgentWorld-397B-A17B를 소개합니다. 실제 환경에서의 7개 도메인에 대한 1,000만 개 이상의 환경 상호작용 궤적 (Interaction Trajectories)을 활용하여, 우리는 3단계 훈련 파이프라인을 통해 Qwen-AgentWorld를 개발했습니다: CPT는 상태 전이 역학 (State Transition Dynamics)과 증강된 전문 코퍼스 (Professional Corpora)로부터 범용 월드 모델링 능력을 주입하고, SFT는 다음 상태 예측 (Next-state-prediction) 추론을 활성화하며, RL은 하이브리드 루브릭 및 규칙 보상 (Hybrid Rubric-and-Rule Rewards)을 갖춘 맞춤형 프레임워크를 통해 시뮬레이션 충실도 (Simulation Fidelity)를 정교화합니다. 언어 월드 모델을 평가하기 위해, 우리는 9개의 기존 벤치마크에서 5개의 프런티어 모델 (Frontier Models)의 실제 상호작용을 통해 구축된 종합적인 벤치마크인 AgentWorldBench를 제시합니다. 실증적 결과는 Qwen-AgentWorld가 기존의 프런티어 모델들을 유의미하게 능가함을 보여줍니다. (ii) 파운데이션 모델을 넘어, 우리는 월드 모델링이 범용 에이전트를 강화하는 두 가지 상호 보완적인 패러다임을 추가로 조사합니다. 첫째, 분리된 환경 시뮬레이터 (Decoupled Environment Simulator)로서, Qwen-AgentWorld는 에이전트 RL (Agentic RL)을 위해 수천 개의 실제 환경에 대한 확장 가능하고 제어 가능한 시뮬레이션을 지원하며, 이는 실제 환경 훈련만 수행했을 때보다 더 높은 이득을 가져옵니다. 둘째, 통합된 에이전트 파운데이션 모델 (Unified Agent Foundation Model)로서, 월드 모델 훈련은 7개의 에이전트 벤치마크 전반에서 다운스트림 성능 (Downstream Performance)을 향상시키는 매우 효과적인 웜업 (Warm-up) 역할을 합니다. Code: https://github.com/QwenLM/Qwen-AgentWorld
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기