X요약2026. 06. 25. 01:44

Qwen, 7가지 Agent 환경을 시뮬레이션할 수 있는 언어 세계 모델 Qwen-AgentWorld를 직접 학습시키다

요약

Qwen이 7가지 환경을 시뮬레이션할 수 있는 언어 세계 모델인 Qwen-AgentWorld를 공개했습니다. 이 모델은 환경 모델링을 핵심 목표로 하여 터미널, 웹, 코드 실행 결과 등을 예측하며, 이를 통해 에이전트의 성능을 크게 향상시킵니다.

핵심 포인트

환경 모델링을 핵심 학습 목표로 삼아 환경 변화를 예측함
시뮬레이션 환경 학습 에이전트가 실제 환경 에이전트를 능가 가능
환경 예측 능력만으로도 다회차 에이전트 작업 성능이 향상됨
35B MoE 버전 및 관련 벤치마크 오픈소스로 공개

Qwen은 7가지 Agent 환경을 시뮬레이션할 수 있는 언어 세계 모델(Language World Model)을 직접 학습시켰으며, 그 이름은 Qwen-AgentWorld입니다.

이 모델은 Agent를 먼저 학습시킨 후 환경을 추가하는 방식이 아니라, 처음부터 "환경 모델링 (Environment Modeling)"을 핵심 학습 목표로 삼았습니다.

모델은 단순히 조작하는 법을 배우는 것이 아니라, 터미널이 무엇을 출력할지, 웹페이지가 어떻게 변할지, 코드를 실행한 후 상태가 어떻게 변할지를 예측하는 법을 배워야 합니다.

그들은 두 가지 방향의 탐색을 진행했습니다:

하나는 세계 모델을 고품질의 환경 시뮬레이터로 만들어 통제 가능한 Sim RL (Simulation Reinforcement Learning)을 실행하는 것이었습니다. 그 결과, 시뮬레이션 환경에서 학습된 Agent가 특정 작업에서는 실제 환경에서 학습된 Agent를 능가할 수 있다는 것을 발견했습니다.

또 다른 흥미로운 점은, 단순히 모델이 환경 예측만 수행하게 했을 때(어떠한 Agent 학습도 하지 않고), 이 예측 능력이 실제 다회차(Multi-turn) Agent 작업으로 직접 전이될 수 있다는 것입니다. 이는 완전히 본 적 없는 분야를 포함하여 여러 벤치마크(Benchmark)에서 눈에 띄는 성능 향상을 보여주었습니다.

Qwen은 이번에 35B MoE (Mixture of Experts) 버전과 그에 대응하는 벤치마크를 오픈소스로 공개했습니다.

핵심 아이디어는 매우 명확합니다. Agent를 강하게 만들고 싶다면, 단순히 행동하는 법을 가르치는 것에 그치지 말고 먼저 환경을 진정으로 "이해"하게 만들어야 한다는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Qwen, 7가지 Agent 환경을 시뮬레이션할 수 있는 언어 세계 모델 Qwen-AgentWorld를 직접 학습시키다

요약

핵심 포인트

댓글