에이전트를 훈련시키지 않고 강하게 만드는 세계 모델, Qwen-AgentWorld

에이전트를 강하게 만들고 싶다면 보통은 에이전트를 훈련시킨다. 그런데 Alibaba의 Qwen 팀이 6월 하순에 공개한 Qwen-AgentWorld는 행동을 출력하는 훈련을 거의 하지 않았음에도 불구하고, 7개의 벤치마크에서 에이전트 성능을 끌어올렸다. 무엇을 학습시켰느냐 하면, 행동이 아니라 '환경의 반응'이다. 터미널에 명령어를 입력하면 무엇이 돌아오는지, API를 호출하면 어떤 JSON이 오는지, 버튼을 누르면 DOM이 어떻게 변하는지. 이 한 점에 집중하여 학습한 모델이 결과적으로 똑똑한 에이전트의 재료가 된다는 이야기다.

현재 강력한 에이전트의 상당수는 강화학습 (RL)으로 완성된다. 절차를 시도하고, 보상을 받으며, 정책을 업데이트한다. 문제는 그 '시도'하는 상대가 실제 환경이라는 점에 있다. 검색 RL이라면 실제 검색 엔진을, 터미널 RL이라면 실제 컨테이너를 학습 루프마다 호출한다. 이는 느리고 비용이 많이 들며, 외부 API의 속도 제한(Rate Limit)이나 비결정성(Non-determinism) 때문에 결과를 재현할 수 없다. 로컬에서 대량의 롤아웃(Rollout)을 돌리고 싶은 실무 관점에서 보면, 병목 현상은 모델이 아니라 환경 측에 있는 경우가 많다.

Qwen-AgentWorld의 발상은 이 환경 전체를 모델이 대신하게 하는 것이다. 비행기 조종 훈련에 플라이트 시뮬레이터를 사용하는 것과 마찬가지로, 실제 기체를 망가뜨리지 않고 몇 번이고 같은 상황을 재현할 수 있다. 그들은 이를 'language world model (언어 세계 모델)'이라고 부른다.

세계 모델 자체는 새로운 것이 아니다. 게임 화면의 다음 프레임을 예측하는 Dreamer나 Genie처럼, 영상을 생성하여 미래를 그려내는 연구가 선행되어 왔다. Qwen-AgentWorld가 다른 점은 예측 대상을 이미지가 아닌 텍스트와 코드(Code)로 삼았다는 점이다. 에이전트의 행동 이력과 다음 수를 입력으로 받아, 환경이 반환해야 할 관측(Observation), 즉 터미널 출력·API 응답·갱신된 화면을 언어로 출력한다.

GUI를 다루는 Web·OS·Android의 3개 도메인에서도 픽셀이 아니라 액세스빌리티 트리(Accessibility Tree)의 XML이나 HTML, UI 계층의 마크업과 같은 '렌더링 가능한 코드'로 상태를 표현한다. 이미지 생성의 무거움을 피하면서 요소의 구조나 속성을 정확하게 추적할 수 있다. 커버하는 영역은 MCP, Search, Terminal, SWE, Web, OS, Android의 7개 영역이며, 이를 하나의 모델에 담은 것은 처음이라고 한다 (모델 카드).

학습은 3단계로 이루어진다. 먼저 1,000만 건이 넘는 실제 환경의 조작 로그로 CPT (지속 사전 학습)를 수행하여 환경의 거동 그 자체를 주입한다. 다음으로 SFT를 통해 다음 상태를 예측하는 사고를 <think>...</think> 블록의 명시적인 추론으로서 끌어낸다. 마지막으로 RL을 통해 규칙 기반 검증과 LLM 판정을 결합한 보상으로 시뮬레이션의 충실도를 연마한다. 단순한 다음 토큰 예측이 아니라, '이 명령어는 이렇게 해석되고, 이렇게 상태가 변하며, 따라서 이 출력이 된다'라는 다단계의 인과 추론을 긴 사고 사슬(Chain of Thought)로 돌리는 것이 핵심이다.

평가를 위해 자체 제작한 AgentWorldBench는 실제 환경에서 실행하여 얻은 정답 관측과 모델의 예측을 서식·사실성·일관성·현실성·품질의 5개 축으로 대조한다. 7개 도메인의 종합 스코어는 다음과 같다.

모델	AgentWorldBench 종합
Qwen-AgentWorld-397B-A17B	58.71
...

환경을 얼마나 올바르게 '연기할 수 있는가'에 따라 397B 버전이 최상위 상용 모델을 넘어섰다. 다만, 시뮬레이터의 정밀도 자체가 목적은 아니다. 중요한 것은 그 다음이다. 검색 에이전트를 실제 검색 엔진으로 RL 했을 때와 이 세계 모델로 RL 했을 때를 비교하면, 후자가 F1 스코어에서 50.3 대 45.6으로 앞섰다고 보고하고 있다. 실제 환경에서는 만들기 어려운 '일부러 망가진 응답을 반환하는' 등의 섭동(Perturbation)을 주입할 수 있는 만큼, 다양한 상황을 학습할 수 있기 때문이라고 한다.

또 하나, 서두의 '행동을 훈련하지 않았는데 강해진다'는 것이 바로 이것이다. 도구 호출(Tool calling)이 없는 단일 턴의 세계 모델 RL로 예열만 한 모델이, 다중 턴의 도구 이용 에이전트 태스크로 전이(Transfer)되어 학습 시 보지 못한 미지의 도메인에서도 BFCL v4에서 +9.0의 성능 향상을 보여주었다. 환경을 예측하는 능력과 환경 속에서 올바르게 움직이는 능력은 맞닿아 있다는 것이 그들의 주장이다. 이 전이가 어디까지 일반화될 수 있는지는 추후 재현 실험을 기다려봐야 하겠지만, 방향성 측면에서는 매우 흥미롭다.

공개된 모델은 35B-A3B(총 파라미터 35B, 활성 파라미터 3B)이며, 라이선스는 Apache 2.0, 컨텍스트 길이는 262,144 토큰이다. 3B만 작동하는 MoE (Mixture-of-Experts) 모델이기에, 이 규모에 비해 추론이 가볍다. 벤치마크 최상위권인 397B-A17B 버전은 점수 보고가 중심이다.

vLLM을 사용한다면 공식 실행 명령어는 다음과 같다.

vllm serve Qwen/Qwen-AgentWorld-35B-A3B \
--port 8000 \
--tensor-parallel-size 4 \
...

SGLang에서도 동일하게 실행할 수 있다.

python -m sglang.launch_server \
--model-path Qwen/Qwen-AgentWorld-35B-A3B \
--port 8000 \
...

활용 용도는 크게 두 가지로 정리된다. 하나는 학습 환경의 대체로, RL (강화학습)의 롤아웃 (Rollout) 상대를 실제 환경에서 이 모델로 교체하는 것이다. 다른 하나는 에이전트 기반 모델 (Foundation Model)로서의 이용으로, 행동 예측과 환경 예측을 동일한 모델에서 겸하는 것이다. 전자의 경우, 외부 API를 매번 호출하는 비용이나 재현성 문제로 고민하는 팀에게 실질적인 이점이 명확하다. 테스트를 위한 모의 객체 (Mock)를 수동으로 작성하는 대신, 환경의 동작을 학습된 모델이 대행하도록 한다고 이해하면 납득하기 쉽다.

냉정하게 짚어두어야 할 점도 있다. 시뮬레이터는 어디까지나 예측일 뿐이며, 실제와 차이가 발생할 경우 '환상의 환경'에서 학습한 정책 (Policy)이 실제 환경에서 무너질 리스크는 남아 있다. 그렇기에 5축 충실도 평가를 전면에 내세우고 있는 것이지만, 자신의 도메인에서 얼마나 재현할 수 있는지는 AgentWorldBench의 수치를 맹신하지 말고 직접 로그를 통해 측정해야 할 것이다. 그럼에도 불구하고, 에이전트 개발의 중심이 '똑똑한 정책을 만드는 것'에서 '저렴하고 빠르며 재현 가능한 환경을 준비하는 것'으로 이동하고 있는 흐름을 하나의 모델로 통합하여 보여주었다는 점에서 시사하는 바가 크다. 기술 보고서는 arXiv:2606.24597에 있다.

Insights

에이전트를 훈련시키지 않고 강하게 만드는 세계 모델, Qwen-AgentWorld

요약

핵심 포인트

댓글

【Claude Code】 결국 무엇을 사용해야 할까? 6가지 커스텀 기능을 '2가지 축'으로 정리하기

Intel 주식의 진짜 가격은 3년 뒤에 결정된다

Alphabet 주가, Dow 지수 편입으로 상승, Verizon은 지수 제외 후 하락

LLM API 디버깅 체크리스트

Intel 주식의 진짜 가격은 3년 뒤에 결정된다

Alphabet 주가, Dow 지수 편입으로 상승, Verizon은 지수 제외 후 하락

LLM API 디버깅 체크리스트