Qwen-AgentWorld: 범용 에이전트를 위한 언어 월드 모델 (Language World Models)

요약

Qwen-AgentWorld는 에이전트 환경 시뮬레이션을 위한 언어 기반 월드 모델 연구입니다. 7개 도메인을 아우르는 시뮬레이션 능력을 갖춘 파운데이션 모델을 제안하며, 에이전트 강화학습 및 성능 향상을 위한 새로운 패러다임을 제시합니다.

핵심 포인트

7개 도메인을 시뮬레이션하는 최초의 언어 월드 모델 Qwen-AgentWorld 공개
CPT, SFT, RL을 활용한 3단계 훈련 파이프라인 적용
에이전트 성능 평가를 위한 종합 벤치마크 AgentWorldBench 제시
분리된 시뮬레이터 및 통합 파운데이션 모델로서의 두 가지 활용 가능성 입증

Computer Science > Computation and Language

제목: Qwen-AgentWorld: 범용 에이전트를 위한 언어 월드 모델 (Language World Models)

View PDF HTML (experimental)
초록: 월드 모델 (World model)은 현재의 관찰 (observations)과 행동 (actions)을 기반으로 환경의 역학 (environment dynamics)을 예측하며, 추론 (reasoning)과 계획 (planning)을 위한 핵심적인 인지 메커니즘 역할을 합니다. 본 연구에서는 언어 모델 (language models)에 기반한 월드 모델링이 범용 에이전트 (general agents)의 경계를 어떻게 더욱 확장할 수 있는지 조사합니다. (i) 우선, 에이전트 환경 시뮬레이션 (agentic environment simulation)을 위한 파운데이션 모델 (foundation models) 구축에 집중합니다. 우리는 긴 사고 사슬 (long chain-of-thought) 추론을 통해 7개 도메인을 아우르는 에이전트 환경을 시뮬레이션할 수 있는 최초의 언어 월드 모델인 Qwen-AgentWorld-35B-A3B 및 Qwen-AgentWorld-397B-A17B를 소개합니다. 실제 환경에서의 7개 도메인에 대한 1,000만 개 이상의 환경 상호작용 궤적 (interaction trajectories)을 활용하여, 우리는 3단계 훈련 파이프라인을 통해 Qwen-AgentWorld를 개발했습니다: CPT는 상태 전이 역학 (state transition dynamics)과 증강된 전문 코퍼스 (augmented professional corpora)로부터 범용적인 월드 모델링 능력을 주입하고, SFT는 다음 상태 예측 (next-state-prediction) 추론을 활성화하며, RL은 하이브리드 루브릭 및 규칙 보상 (hybrid rubric-and-rule rewards)을 갖춘 맞춤형 프레임워크를 통해 시뮬레이션 충실도 (simulation fidelity)를 정교화합니다. 언어 월드 모델을 평가하기 위해, 우리는 9개의 기존 벤치마크에서 5개의 프런티어 모델 (frontier models)의 실제 상호작용을 통해 구축된 종합적인 벤치마크인 AgentWorldBench를 제시합니다. 실증적 결과는 Qwen-AgentWorld가 기존의 프런티어 모델들을 유의미하게 능가함을 보여줍니다. (ii) 파운데이션 모델을 넘어, 우리는 월드 모델링이 범용 에이전트를 강화하는 두 가지 상호 보완적인 패러다임을 추가로 조사합니다. 첫째, 분리된 환경 시뮬레이터 (decoupled environment simulator)로서, Qwen-AgentWorld는 에이전트 강화학습 (agentic RL)을 위해 수천 개의 실제 환경에 대한 확장 가능하고 제어 가능한 시뮬레이션을 지원하며, 이는 실제 환경 훈련만 수행했을 때보다 더 높은 이득을 가져옵니다. 둘째, 통합된 에이전트 파운데이션 모델 (unified agent foundation model)로서, 월드 모델 훈련은 7개의 에이전트 벤치마크 전반에서 다운스트림 성능 (downstream performance)을 향상시키는 매우 효과적인 웜업 (warm-up) 역할을 합니다.

코드: this https URL

참고 문헌 및 인용 도구 (Bibliographic and Citation Tools)

이 기사와 관련된 코드, 데이터 및 미디어 (Code, Data and Media Associated with this Article)

데모 (Demos)

arXivLabs: 커뮤니티 협력자와 함께하는 실험적 프로젝트

arXivLabs는 협력자들이 우리의 웹사이트에서 직접 새로운 arXiv 기능을 개발하고 공유할 수 있도록 지원하는 프레임워크입니다.

arXivLabs와 함께 활동하는 개인 및 조직은 모두 개방성, 커뮤니티, 탁월함, 그리고 사용자 데이터 프라이버시라는 우리의 가치를 수용하고 받아들였습니다. arXiv는 이러한 가치에 전념하고 있으며, 이를 준수하는 파트너와만 협력합니다.

arXiv 커뮤니티에 가치를 더할 프로젝트 아이디어가 있으신가요? arXivLabs에 대해 더 알아보기.

AI 자동 생성 콘텐츠

원문 바로가기