X요약2026. 06. 24. 23:29

Qwen-AgentWorld 소개 — 단일 모델 내에서 7가지 에이전트 환경(MCP, Search, Terminal, SWE, Web, OS

요약

Qwen-AgentWorld는 단일 모델 내에서 7가지 에이전트 환경을 시뮬레이션하는 네이티브 언어 월드 모델입니다. 환경 모델링을 훈련 목표로 설정하여 에이전트의 성능을 극대화하고, 환경 예측 지식이 에이전트 작업으로 전이됨을 입증했습니다.

핵심 포인트

7가지 환경(MCP, Search, Terminal 등)을 시뮬레이션하는 월드 모델
AgentWorldBench에서 Claude Opus 및 GPT-5.4를 능가하는 성능
환경 예측 학습이 에이전트의 제로 파인튜닝 성능을 향상시킴
Sim RL을 통해 실제 환경 훈련을 능가하는 효과 확인

📣📣 Qwen-AgentWorld를 소개합니다 — 단일 모델 내에서 7가지 에이전트 환경(MCP, Search, Terminal, SWE, Web, OS, Android)을 시뮬레이션하는 네이티브 언어 월드 모델 (native language world model)입니다. 환경 모델링 (Environment modeling)은 사후 적응 (post-hoc adaptation)이 아니라, 첫날부터 설정된 훈련 목표 (training objective)입니다.

🤔 LLM (Large Language Models)은 더 나은 에이전트, 즉 환경 내에서 더 잘 행동하도록 훈련됩니다. 하지만 그 환경 자체를 모델링하도록 훈련된 모델은 아직 없습니다.

🗺️ 우리의 로드맵: 언어 월드 모델링 (language world modeling)이 두 가지 경로를 통해 일반 에이전트 능력의 한계를 어떻게 확장할 수 있는지 조사합니다:

1️⃣ 환경 시뮬레이션을 위한 파운데이션 모델 (foundation model) 구축 — AgentWorldBench에서 Claude Opus 4.8 및 GPT-5.4를 능가함

2️⃣ 월드 모델링이 에이전트 훈련을 어떻게 강화하는지 조사:
🔬 제어 가능한 Sim RL (LWM을 환경으로 사용하는 에이전트 기반 RL)은 실제 환경에서의 훈련을 능가합니다.
🧠 환경을 예측하는 법을 학습 (LWM warm-up)하면 에이전트가 더 강력해집니다 — 놀랍게도, 에이전트 특화 훈련 없이도 이러한 예측 지식은 제로 파인튜닝 (zero fine-tuning) 상태에서 에이전트 작업으로 전이됩니다.

📑 논문 (Paper): https://t.co/Jx2l5RKq71
📖 블로그 (Blog): https://t.co/7tVcKyhsx2
💻 GitHub: https://t.co/B5Lvb1UZCn
🤗 HuggingFace: https://t.co/Kw3QBL1TM5
🧩 ModelScope: https://t.co/YBnGYgMWWI

AI 자동 생성 콘텐츠

원문 바로가기

Qwen-AgentWorld 소개 — 단일 모델 내에서 7가지 에이전트 환경(MCP, Search, Terminal, SWE, Web, OS

요약

핵심 포인트

댓글