중국의 AI Agent × World Models는 어디까지 왔는가 ── Qwen-AgentWorld가 보여주는 「언어 세계 모델」의 최전선

2026년 6월 24일, Alibaba의 Qwen(통의천문) 팀이 Qwen-AgentWorld를 공개했습니다.

「7개의 에이전트 환경을, 하나의 모델로 통째로 시뮬레이션한다」는, 언어 세계 모델 (Language World Model)의 계보를 한 단계 더 진전시킨 기반 모델입니다. 이 기사는 공개된 논문·블로그·GitHub·모델 웨이트(Model Weights)를 입구로 하여,

중국에서의 「AI 에이전트 × 세계 모델 (World Models)」의 연계 아키텍처가 어디까지 진행되었는지를 엔지니어의 관점에서 정리한 해설 기사입니다.

AI 에이전트에 「세계 모델」을 결합함으로써, 에이전트가 실제로 다음 행동을 취하기 전에, 「그 행동을 취하면 환경과 자신의 상태가 어떻게 변할 것인가」를 미리 예측할 수 있도록 하는 것

── 이 발상은 중국 기업의 전유물이 아니며, 미국을 비롯한 각국 기업이 추구하고 있는 노선입니다.

(예)

이하의 미국·일본·한국의 사례에 대해서는 상세한 내용을 이 기사 안에서 나중에 해설하겠습니다.

미국의 DeepMind / NVIDIA / Meta, 유럽의 Wayve
일본의 Toyota
한국의 Samsung/Hyundai 연합

실제로, 「AI Agent가 실제로 행동하기 전에, 사전에 환경의 반응을 미리 예측한다」는 발상 자체는 Qwen의 전매특허가 아닙니다.

미국에서도 다음과 같은 선행 연구가 있으며, DeepMind의 Genie + SIMA와 같이 세계 모델과 에이전트를 결합하려는 시도도 진행되고 있기 때문입니다.

RAFA (2023): Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency (Zhihan Liu 외, arXiv:2309.17382)

→ 미래를 상상한 뒤 행동하는 LLM 에이전트를 제안.

RAP (2023): Reasoning with Language Model is Planning with World Model (Shibo Hao 외, EMNLP 2023, arXiv:2305.14992)

→ LLM 자체를 세계 모델로 사용하여, 다음 상태를 예측하며 계획하는 수법 (프레임워크 명칭은 Reasoning via Planning).

Tree of Thoughts / ToT (2023): Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Shunyu Yao 외, NeurIPS 2023, arXiv:2305.10601)

→ 사고를 트리 구조로 전개하여, 여러 추론 경로를 탐색하는 수법.

하지만, 그러한 선행 연구의 상당수는 환경 시뮬레이터를 외부로 분리하는 형태 (후술할 Decouple)이거나, 단일 도메인 중심이거나, 혹은 모델 (아키텍처) 자체가 사외 비공개인 경우가 많았습니다.

이상을 바탕으로, Qwen의 공헌은 다음과 같다고 받아들이고 있습니다.

7개의 환경 (AI 에이전트의 행동 환경)을 단일 세계 모델로 묶었다:

MCP · Search · Terminal · SWE · Android · Web · OS라는, AI 에이전트가 실제로 행동하는 7개의 디지털 환경을 Qwen-AgentWorld라는 단일 언어 세계 모델로 통합했다.

에이전트 스스로 내장할 수 있는 형태로 제시했다:

그 환경 예측 능력을 외부 시뮬레이터로서뿐만 아니라, AI 에이전트 자신의 내부에도 통합할 수 있는 형태 (후술할 Unify)로 제시했다.

가중치와 벤치마크를 오픈으로 공개했다:

해당 언어 세계 모델의 가중치 (Open Weights)와 평가 벤치마크 (AgentWorldBench)를 Apache-2.0 라이선스로 전 세계에 공개했다.

이하, 위의 각 공헌 포인트를 하나씩 살펴보겠습니다.

Qwen-AgentWorld는 MCP / Search / Terminal / SWE / Android / Web / OS의 7개 도메인을 1개의 언어 모델로 시뮬레이션하는 「언어 세계 모델 (Language World Model, LWM)」이다.

핵심은,
처음부터 "세계 모델로서" 길러지고 있다는 점이다. 나중에 기능을 추가하는 것(사후 추가 = post-hoc)이 아니라, 훈련의 가장 첫 단계부터 "환경이 어떻게 변화할지를 예측하는 것"을 학습 목표로 삼고 있다. 논문에서는 이러한 "태생적인 세계 모델"이라는 성질을 "네이티브 (Native) 세계 모델"이라고 부른다.
역할은 두 가지.
(1) 에이전트를 훈련하기 위한 "시뮬레이터" (환경을 무한히 늘릴 수 있음)와, (2) 에이전트 자신을 강하게 만드는 "기반 모델 (Foundation Model)" (다음 상태의 예측을 "미래 지향적 성찰 (future-oriented reflection)"로서 에이전트 내부에 내재화).
벤치마크
AgentWorldBench에서, 플래그십 모델인 Qwen-AgentWorld-397B-A17B가 종합 58.71을 기록하며, GPT-5.4 (58.25) 및 Claude Opus 4.8을 상회했다고 보고되었다.

35B-A3B 버전의 모델 가중치 (Model Weights)와 평가 벤치마크가 Apache-2.0 라이선스로 오픈 공개되었다. 이것이 중국 세력의 상투적인 수법으로, 생태계 전체를 단번에 끌어올린다.

중국의 AI 연구소 (Alibaba/Qwen, DeepSeek, Moonshot/Kimi, Zhipu/GLM 등)는,
"저렴하게·오픈 소스로·빠르게"를 무기로 삼아, 에이전트 능력과 세계 모델의 교차점에 동시에 투자하기 시작하고 있다. Qwen-AgentWorld는 그 상징적인 한 수이다.

⚠️ 주석: 본 기사의 벤치마크 수치·모델명·날짜는 2026년 6월 시점에 공개된 1차 정보 (arXiv 논문, Qwen 공식 블로그, GitHub, Hugging Face)를 바탕으로 합니다. 독자 여러분께서는 최신 1차 정보를 직접 확인하실 것을 권장합니다. 링크는 말미에 모아두었습니다.

🔒

이용 시 중요한 주의사항 (반드시 읽어주십시오): 이 기사는 중국제 AI (Qwen 등)의 기술을 해설하지만,

일본의 데이터 사이언티스트/프로그래머가 중국 기업의 클라우드 서비스나 제품을 실무에서 사용할 경우, 데이터 유출·백도어 혼입·각국의 법령 및 규제 저촉·위반 등의 경제 안보·국가 안보·사이버 보안상의 우려 사항을 충분히 고려하여 사전에 해결해야 합니다. 우리나라 정부(일본 정부)·개인정보보호위원회·IPA 등에 의한

공식 주의 환기를 바탕으로 한 구체적인 유의 사항을 기사 말미의 "부록 B: 중국제 AI를 업무에 이용할 때의 보안 주의 환기"에 반드시 기재하였습니다. 적절히 참조하시기 바랍니다.

여러분께서 실제로 업무나 소속 기업의 업무에서 이 기사에서 다룬 중국 기업 각사의 서비스나 제품을 이용하는 것을 검토하실 때는, 사전에 위의 주의 환기 정보 내용을 충분히 확인하실 것을 강력히 권장합니다.

**에이전트 (Agent)**가 환경 속에서 행동하는 루프는, 크게 나누어 다음 두 가지 부품으로 구성됩니다.

정책 (Policy): `상태 → 행동`. "지금 무엇을 할지"를 결정하는 부분.

세계 모델 (World Model): (상태, 행동) → 다음 상태. "이렇게 움직이면 세계가 어떻게 변할지"를 예측하는 부분.

최근 몇 년간의 LLM 에이전트 연구는 거의 "어떻게 행동할지"를 결정하는 측 (정책 측)에 집중되어 왔습니다.

실제로 웹 에이전트의 대표적 연구인 WebDreamer (2024)도, 그 상황에 반응하여 움직이는 방식 (reactive한 계획)보다, 행동하기 전에 세계 모델로 앞을 내다보고 움직이는 것이 유리하다고 논하고 있으며, 이는 "앞을 내다보는" 측의 연구가 상대적으로 미흡했음을 짐작게 합니다.

Qwen 팀은 논문의 서두에서 위의 주장보다 한 걸음 더 나아가,

"세계를 모델화하는 측이야말로 범용 에이전트로 가기 위해 결정적으로 결여된 조각 (missing piece)이다"라고 주장했습니다.

⚠️ 단, 이 "결정적으로 결여된 조각"이라는 표현은

Qwen 자신의 입장 표명이며, 객관적인 사실은 아니라는 점에 주의가 필요합니다. 실제로는 세계 모델을 LLM 에이전트에 통합하는 연구는 2023년 이후 이미 두텁게 쌓여 있습니다.

미국에서도 RAFA (2023, 미래를 상상한 뒤 행동하는 LLM 에이전트), RAP / Tree of Thoughts (2023, LLM 자체를 세계 모델로 사용), WebDreamer (2024, Web 전용 세계 모델 Dreamer-7B를 훈련) 등이 선행하고 있으며, DeepMind의 Genie + SIMA와 같은 조합도 진행되고 있습니다.

정확히는, "정책 (Policy) 측에 비해 세계 모델 측의 연구는 상대적으로 미흡했다"는 것이지, "결여되어 있었다"는 뜻은 아닙니다.

Qwen의 표현은 자사의 신규성을 강조하기 위한 것으로 해석하는 것이 타당합니다.

이 "행동하기 전에 환경의 반응을 예측한다"는 발상에는 이론적인 뒷받침도 있습니다. 최근의 이론 연구 (Richens et al., 2025, General agents contain world models)에서는, **"충분히 넓은 범위의 태스크에 일반화할 수 있는 에이전트는 필연적으로 세계 모델을 내부에서 학습하고 있다"**는 점이 밝혀졌습니다.

**세계 모델 (World Model)**은 "있으면 편리한" 부가 기능이 아니라, "범용 에이전트에게는 필수"라는 입장입니다.

다만, 지금까지 살펴본 바와 같이, LLM 에이전트가 움직이는 "언어·디지털 환경"을 하나의 모델로 폭넓게 커버하는 범용적인 세계 모델은 아직 일반적이지 않았습니다 (선행 연구의 대부분은 Web 등 단일 도메인 중심이거나, 환경 시뮬레이터를 외부에 분리하는 형태였습니다).

여기에 7개의 디지털 환경을 단일한 하나의 세계 모델로 묶는 방식으로 본격적으로 발을 들인 시도 중 하나가 바로 Qwen-AgentWorld입니다.

"실제로 터미널이나 브라우저를 구동하면 되지 않는가?"라는 의문에 대해, 논문은 명확하게 답하고 있습니다.

비용 절감을 위해서가 아니라, 프론티어를 확장하는 "보조 축"으로서 필요하다고 말입니다.

이유는 두 가지입니다.

확장성 (Scalability):

실제 환경은 샌드박스나 GUI 가상 머신과 같은 인프라가 필요합니다.

→ 세계 모델이라면, 에이전트와의 상호작용 1회마다 다양한 환경의 반응을 전용 인프라 없이 무한히 생성할 수 있습니다.

→ 나아가, 되돌릴 수 없는 조작·사내 전용 시스템·공개 구현이 존재하지 않는 고가치 전문 영역 등 "실행이 현실적으로 불가능한" 환경도 커버할 수 있습니다.

제어 가능성 (Controllability):

세계 모델은 환경을 정밀하게 제어할 수 있습니다.

예를 들어, "일부러 부분적인 결과만 반환하여 에이전트에게 추가 대화 단계를 강제한다"와 같이, 실제 환경에서는 드물게 발생하는 엣지 케이스 (Edge Case)를 의意적으로 만들어내는 것이 가능합니다.

이러한 "악의적인 섭동 (Perturbation)"으로 단련하면, 실제 환경에서만 훈련한 에이전트를 뛰어넘는 결과를 얻을 수 있다고 생각됩니다.

위의 "2"는, 실제 환경 테스트는 "우연히 마주친 케이스"만 밟을 수 있는 반면, 세계 모델은 "밟게 하고 싶은 케이스"를 목표로 합성할 수 있음을 의미합니다.

Qwen-AgentWorld가

단일 (하나의) 세계 모델로 시뮬레이션하는 것은 다음의 7가지 환경 (세계)입니다.

도메인	내용
MCP	Model Context Protocol을 통한 도구 호출 (API/도구 연동)
Search	웹 검색 및 그 결과 페이지
Terminal	커맨드 라인 조작
SWE	소프트웨어 엔지니어링 (코드 수정 등)
Android	스마트폰 UI 조작
Web	브라우저 조작
OS	데스크톱 OS 조작

주목할 점은, GUI 계열의 3가지 도메인 (Android / Web / OS)에서는 화면을 픽셀 이미지로 다루지 않고, accessibility tree (액세서빌리티 트리)나 UI view hierarchy (UI 계층 구조)라는 "구조화된 텍스트"로 표현하고 있다는 것입니다.

이는 Qwen-AgentWorld가 "화면을

이미지로 그려내는 세계 모델"이 아니라, 어디까지나

언어 (텍스트)로 환경의 상태 전이를 예측하는 세계 모델임을 의미합니다.

이것이 바로 "Language World Model"이라 불리는 이유입니다.

Qwen-AgentWorld는 1,000만 건 이상 (10M+)의 실제 환경 상호작용 궤적을 사용하여 3단계로 훈련됩니다.

CPT → SFT → RL
(주입) (활성화) (연마)

Stage 1: CPT (계속 사전 학습 (Continual Pre-training))

상태 전이 다이내믹스(state transition dynamics)와 세계 지식을 모델에 "주입". 이 단계부터 이미 "환경의 모델화"가 학습 목표가 된다는 점이 "네이티브(native)"다운 부분이다. 사후적인 fine-tuning을 통해 세계 모델다운 특성을 나중에 추가하는 것이 아니라, 처음부터 세계 모델로서 키워 나간다.

Stage 2: SFT (지도 미세 조정 (Supervised Fine-tuning))

「다음 상태 예측 (next-state prediction)」을 명시적인 사고 패턴 (thinking pattern)으로서 활성화. 긴 chain-of-thought 추론을 통해, "이 행동 이후에 환경은 이렇게 된다"를 생각하게 만든다.

Stage 3: RL (강화학습 (Reinforcement Learning))

루브릭 평가 (rubric-based evaluation)와 규칙 기반 보상 (rule-based reward)의 하이브리드를 통해, 시뮬레이션의 충실도 (fidelity)를 연마하는 단계. 이 부분은 조금 더 깊이 파고들 가치가 있습니다 (후술).

RL (Reinforcement Learning, 강화학습)은 모델의 출력에 대해 **보상 (reward)**을 부여하고, 보상이 높아지는 방향으로 모델을 업데이트해 나가는 훈련 기법입니다.

강화학습의 과제로 널리 알려진 것은, "세계 모델의 출력 = 예측한 다음 상태의 텍스트"에 대해 무엇을 "좋은 예측"으로 볼 것인가 하는 점입니다.

Qwen은 이 과제를 해결하기 위해 두 종류의 보상을 조합하고 있습니다.

루브릭 평가 (rubric-based reward)

「루브릭 (rubric)」이란 채점 기준표를 의미합니다.

(교육 현장에서 사용되는 관점별 평가 기준을 떠올려 보세요)

여기서는 별도의 LLM이 "심사위원 (judge)"가 되어, "사실성이 올바른가", "문맥과 일치하는가" 등 여러 관점에서 정답 로그 (ground truth)와 대조하여 채점합니다. 정답이 일의적으로 정해지지 않는 자유 기술형 예측의 좋고 나쁨을 측정하는 데 적합합니다.

루브릭이란,

평가 관점과 기준을 나열한 「채점 기준표」를 말합니다. 원래는 교육 현장에서 사용되는 용어로, 레포트나 발표를 채점할 때 「관점 (예: 논리성·정확성·표현) × 레벨 (예: 우수·양호·보통)」을 표로 정리하여, 누가 채점하더라도 평가가 흔들리지 않도록 하기 위한 도구입니다.

예를 들어 작문 채점에서 "구성이 명확한가 (5점)", "근거가 충분한가 (5점)", "오탈자는 없는가 (5점)"와 같이 관점마다 기준을 정해두는 것이 바로 루브릭입니다.

이 기사의 문맥 (Qwen-AgentWorld의 RL)에서는 이것이 AI의 세계에 응용되고 있습니다. 세계 모델이 출력한 「다음 상태의 예측 텍스트」를 별도의 LLM이 "심사위원"이 되어 사실성·정합성 등의 관점별로 정답 로그와 대조하여 채점하는데,

── 이때의 채점 기준표가 「루브릭」입니다. 정답이 하나로 정해지지 않는 자유 기술형 출력을 평가하는 데 적합하다는 의미에서 이 용어를 사용하고 있습니다.

규칙 기반 보상 (rule-based reward)

이것은 기계적·결정적으로 체크할 수 있는 항목에 사용하는 보상입니다.

예를 들어 "터미널의 바이트 수 계산이 한 글자 단위로 맞는가", "API 스키마 (인수의 타입·구조)가 사양대로인가", "URL 형식이 현실적인가" 등, 프로그램으로 ○× 판정이 가능한 부분을 엄격하게 검증합니다.

이 두 가지를 조합하는 것은, 「자유 기술의 질 (루브릭)」과 「엄격한 정확성 (규칙)」 모두를 동시에 단련하기 위함입니다.

루브릭만 사용하면 세부적인 속임수를 놓칠 수 있고, 규칙만 사용하면 자유도가 높은 예측을 평가할 수 없습니다.

Qwen 논문이 정직한 점은, RL에서 자주 발생하는 "실패 모드 (failure mode)"와 그 대책까지 솔직하게 기술하고 있다는 점입니다.

보상 붕괴 (reward collapse)

「붕괴」란 훈련 도중에 보상이 제대로 기능하지 않게 되어 모델이 학습할 수 없게 되는 현상입니다.

이번에는 하나의 궤적 (trajectory)을 여러 턴으로 전개 (multi-turn expansion)하여 훈련하는 과정에서 보상의 분포가 편향되어 학습 신호가 뭉개지는 문제가 발생했습니다.

→ 대책으로서, **보상 셰이핑 (reward shaping = 보상을 주는 방식을 조정하여 모델이 학습하기 쉬운 기울기(gradient)를 만드는 것)**을 도입하고 있습니다.

자기 찬양에 의한 보상 해킹 (reward hacking by self-praise)

「보상 해킹 (reward hacking)」이란, 모델이 "본래의 목적을 달성하지 않고, 보상을 얻기 위한 지름길만을 학습해 버리는 것"(테스트 점수만 오르고 실력이 따르지 않는 상태)을 의미합니다. 이번 구체적인 사례가 매우 탁월한데, 세계 모델 (World Model)이 생성하는 예측 텍스트 안에 "이것은 완벽한 예측입니다"와 같은 자화자찬 (self-praise)을 섞어 넣음으로써, 심사위원 LLM을 구슬려 점수를 따내는 지름길이 발생했습니다. 이를 탐지하고 억제하는 메커니즘을 도입하고 있습니다.

💡 이 부분은 「AI가 AI를 평가하는 (LLM-as-a-judge)」 구성 때문에 발생하는 함정이 잘 드러난 대목입니다.

심사위원 또한 LLM인 이상, 아부에 약합니다. 세계 모델이 그 점을 파고든다는 현상은 에이전트 시대의 평가 설계가 얼마나 어려운지를 상징합니다.

LWM을 측정하기 위한 전용 벤치마크도 동시에 구축 및 공개되었습니다.

5개의 프론티어 모델 (Claude Opus, GPT, Gemini, Qwen 등)이 Tool Decathlon / Terminal-Bench 1.0 & 2.0 / OSWorld-Verified 등 9개의 확립된 벤치마크 위에서 실제로 작동한 **리얼한 환경 인터랙션 (environment interaction)**으로부터 구축되었습니다.

Claude Opus 4.6과 같은 첨단 모델이 실제로 환경을 조작했을 때의 기록 (행동과 그에 대한 환경의 반응 로그)을 소재로 사용하고 있기 때문에, 평가 대상 모델에게는 처음 보는 데이터가 됩니다.

이는 **「분포 외 (out-of-distribution, OOD)」**라고 불리는 설정으로, 쉽게 말해 "훈련에서 본 적 없는, 예상 밖의 데이터"를 의미합니다.

손에 든 문제집을 통째로 암기해도, 실전에서 처음 보는 문제가 나오면 풀 수 없는 것과 같습니다.

── 이와 마찬가지로, 단순 암기 (과적합, overfitting)로는 높은 점수를 얻을 수 없으며, **진정한 일반화 능력 (generalization ability)**을 측정할 수 있는 구조로 되어 있습니다.

평가는 5차원 루브릭 (rubric) 판정 (사실성, 정합성 등)을 통해 시뮬레이션 품질을 점수화합니다. 결정적인 체크를 위한 **룰 기반 검증기 (rule-based verifier)**도 병용합니다.

논문 및 GitHub 보고에 따르면, AgentWorldBench (5차원 루브릭 평균, 0–100 정규화)에서의 점수는 다음과 같습니다.

모델	Overall (종합)
Qwen-AgentWorld-397B-A17B (본체)	58.71
GPT-5.4	58.25
Claude Opus 4.8	56.6 (그림 중 수치)
Gemini 3.1 Pro	54.6
...

두 가지 포인트를 짚어보겠습니다.

환경 시뮬레이션 전용으로 훈련된 세계 모델 (=Qwen-AgentWorld)이 범용 프론티어 모델 (GPT-5.4 등)을 "환경 시뮬레이션"이라는 경기장에서 앞질렀습니다.

→ 범용 LLM은 "행동하는 것은 잘하지만, 환경 그 자체를 모델링하는 훈련은 받지 않았다"는 Qwen의 주장을 뒷받침하는 결과입니다.

소형 모델인 Qwen-AgentWorld-35B-A3B는 LWM 훈련을 하지 않은 순수 베이스 모델 (Qwen3.5-35B-A3B)에 비해 +8.66포인트 개선되었습니다.

→ 세계 모델 훈련 그 자체가 효과가 있음을 보여주는 결과입니다.

💡 벤치마크는 「자사가 만든 벤치마크에서 자사가 승리하는」 구조라는 점에는 유의할 필요가 있습니다 (AgentWorldBench는 Qwen이 직접 구축).

그럼에도 불구하고, 소재가 타사 프론티어 모델의 실제 로그라는 점, 벤치마크와 모델이 모두 오픈 공개되어 있다는 점에서 제3자에 의한 재현 실험의 길은 열려 있습니다.

이 부분이 본 기사의 주제인, **에이전트와 세계 모델의 "연계 아키텍처 (連携アーキテクチャ)"**입니다. Qwen은 두 가지 상보적인 패러다임을 제시합니다.

에이전트와 세계 모델을 각각 별개로 두고, 세계 모델을 에이전트 훈련용 시뮬레이터로 사용하는 방식입니다.

Sim Agentic RL: 세계 모델이 생성하는 가상 환경 안에서 에이전트를 강화학습 (RL) 합니다.

실험에서는 4,000개의 분포 외 (OOD) OpenClaw 환경을 Qwen-AgentWorld-397B-A17B로 시뮬레이션하여 그 안에서 에이전트를 RL 훈련했습니다. 결과적으로 Claw-Eval 및 QwenClawBench에서 실제 환경 훈련을 상회하는 이득을 기록했습니다.

나아가, **제어 가능성 (controllability, 악의적인 섭동을 가하는 능력)**을 통해 Tool Decathlon 등에서 실제 환경 훈련 대비 명확한 성능 향상을 얻었습니다.

📘

Tool Decathlon이란: 에이전트의

도구 사용 능력을 측정하는 벤치마크. 「Decathlon(10종 경기)」이라는 이름처럼, 다양한 도구/API를 횡단적으로 능숙하게 사용할 수 있는지를 여러 과제 세트를 통해 종합적으로 평가하는 것입니다. 단일 태스크가 아니라 「다양한 도구를 상황에 맞게 올바르게 구분하여 사용할 수 있는가」를 보는 점이 특징입니다.

아키텍처 이미지:

[Agent] ⇄ [World Model = 가상 환경] ↑ 무한히 환경을 생성·섭동을 주입

실제 환경이라는 "유한하고 비용이 많이 드는 모래놀이장" 대신,

세계 모델(World Model)이라는 "무한히 만들 수 있고 마음대로 주무를 수 있는 모래놀이장"에서 에이전트를 단련합니다.

에이전트와 세계 모델을 하나의 모델로 통합하는 방식입니다.

「행동을 결정하기 전에, 먼저 다음 상태를 예측하는」 능력을 에이전트 스스로 내재화시킵니다.

다음 상태 예측(next-state prediction)을, reflection과 유사한 "미래 지향적 메타 사고"로서 획득합니다. 「reflection이 과거를 되돌아보는 것」에 반해, 「이것은 미래를 예측하는 것」입니다.

직관적으로,

행동을 확정하기 전에 환경의 반응을 예측할 수 있는 에이전트는, 예측할 수 없는 에이전트보다 원리적으로 뒤처지지 않습니다 (앞서 언급한 Richens et al., 2025).

구현상으로는, 우선,

「한 번의 입출력으로 완결되는, 에이전트적이지 않은 단순한 예측 태스크」 (= 단일 턴(single-turn)·비에이전트적(non-agentic) 궤적)로, 세계 모델로서의 "다음 상태 예측"을 RL(강화학습)로 훈련해 둡니다.

논문에서는 이를 **「LWM RL 워밍업」**이라고 부릅니다 (본격적인 에이전트 훈련 전에, 세계 모델 능력으로 "준비 운동"을 시키는 이미지).

용어 보충:

단일 턴(single-turn): 한 번의 입출력으로 끝나는 주고받기. 반대로 멀티 턴(multi-turn)은 여러 번 환경과 상호작용을 거듭하는 대화형 태스크.

비에이전트적(non-agentic) 궤적: 도구를 호출하여 환경을 조작하는 "에이전트다운" 행동을 포함하지 않는, 단순한 예측 데이터.

놀라운 점은, 이

수수한 준비 운동(단일 턴 예측 훈련)만으로도, 본 게임인 어려운 태스크(멀티 턴으로 도구를 사용하는 에이전트 과제)에까지 효과가 전이된다는 것입니다. 논문은,

에이전트 고유의 추가 훈련을 전혀 하지 않고도(zero fine-tuning),
이 예측 능력이 에이전트 태스크의 성적을 끌어올린다고 보고하고 있습니다.

7개의 에이전트 벤치마크에서 다운스트림 성능이 향상되었습니다 (그중 3개는 완전히 분포 외(out-of-distribution) 데이터).

예를 들어 SWE-Bench Pro에서 +5.2, BFCL v4에서 +9.0, Claw-Eval에서 +11.8 등의 결과가 얻어졌음이 도식화되어 있습니다.

아키텍처 이미지:

[Unified Agent] State → (다음 상태를 예측) → Action → Next State └ "Simulation"을 사고 프로세스에 녹여냄

구분	Decouple (분리)	Unify (통합)
세계 모델의 역할	외부의 환경 시뮬레이터	에이전트 내부의 기반 능력
작동 원리	가상 환경에서 RL 훈련을 수행	다음 상태 예측을 사고에 내재화
주요 이점	환경의 스케일·섭동 제어	행동 전 선행 예측으로 의사결정 개선
대표적 이득	Claw-Eval / Tool Decathlon	SWE-Bench Pro / BFCL v4 등

「분리」를 통해 에이전트를 단련할 모래놀이장을 무한화하고, 「통합」을 통해 에이전트의 뇌에 선행 예측 회로를 심는다.

이 2단계 전략이 Qwen이 그리는 「세계 모델 × 에이전트」 연계의 전체 모습입니다.

Qwen-AgentWorld 단독뿐만 아니라, 중국 AI 생태계 전체의 맥락에서 보면 몇 가지 구조가 보입니다.

Qwen은 35B-A3B 버전의 가중치(weights)와 AgentWorldBench를 Apache-2.0 라이선스로 오픈 공개했습니다. 이는 중국 주요 연구소들의 공통된 전략입니다.

DeepSeek: 모델의 가중치를 공개(open weights)하고, 동시에 극도로 저렴한 비용으로 제공함으로써 세계적인 존재감을 확보하고 있습니다.

Moonshot AI (Kimi): Kimi K2 계열은 '에이전트 특화 프론티어 모델'을 표방하며, 최대 수백 개의 서브 에이전트 협업 및 수천 스텝의 장시간 태스크 등 에이전트 기반에 주력하고 있습니다.

Zhipu AI (GLM): 중국 최초로 상장한 AI 기업입니다. NVIDIA 의존 없이(Huawei Ascend만 사용) 프론티어 모델을 훈련시킨 첫 사례로 주목받고 있습니다.

Alibaba (Qwen): 다국어 및 수학에 강하며, 이번처럼 **'에이전트 × 세계 모델'**이라는 새로운 영역에 선행 투자하고 있습니다.

공통점은, '저렴하게・오픈으로・빠르게 출시'함으로써 개발자 커뮤니티를 한 번에 흡수하여 디 팩토(de facto) 표준을 노리는 것입니다.

Qwen-AgentWorld를 공개한 것도, 연구 커뮤니티가 LWM(Language World Model)을 활용한 agentic RL을 시작하게 만드는 '진입점'을 제공하려는 의도가 분명해 보입니다.

중국 기업들이 '거대 모델을 물량으로 밀어붙이는' 전략이 아니라, '효율성・오픈화・새로운 아키텍처'라는 전략을 취하고 있는 배경에는, 미국의 첨단 GPU(A100/H100/H200 등) 수출 규제가 있다고 생각됩니다.

아이러니하게도, 이 제약이 Huawei Ascend 같은 국산 칩에서의 훈련이나, **세계 모델처럼 '데이터 효율성・환경 효율성을 높이는 고안'**을 가속화하는 측면이 있습니다.

세계 모델은 '실제 환경 인프라 없이 훈련 환경을 무한히 생성한다'는 발상이기 때문에, 계산 및 인프라 제약 하에서 agentic 능력을 키우는 방향과도 일치합니다.

Qwen 공식 웹사이트에서는 Qwen-AgentWorld와 함께 **Qwen-RobotWorld(

중국의 AI Agent × World Models는 어디까지 왔는가 ── Qwen-AgentWorld가 보여주는 「언어 세계 모델」의 최전선

요약

핵심 포인트

정책 (Policy): `상태 → 행동`. "지금 무엇을 할지"를 결정하는 부분.

단일 턴(single-turn): 한 번의 입출력으로 끝나는 주고받기. 반대로 멀티 턴(multi-turn)은 여러 번 환경과 상호작용을 거듭하는 대화형 태스크.

댓글

중국의 AI Agent × World Models는 어디까지 왔는가 ── Qwen-AgentWorld가 보여주는 「언어 세계 모델」의 최전선

요약

핵심 포인트

정책 (Policy): 상태 → 행동. "지금 무엇을 할지"를 결정하는 부분.

단일 턴(single-turn): 한 번의 입출력으로 끝나는 주고받기. 반대로 **멀티 턴(multi-turn)**은 여러 번 환경과 상호작용을 거듭하는 대화형 태스크.

댓글

정책 (Policy): `상태 → 행동`. "지금 무엇을 할지"를 결정하는 부분.

단일 턴(single-turn): 한 번의 입출력으로 끝나는 주고받기. 반대로 멀티 턴(multi-turn)은 여러 번 환경과 상호작용을 거듭하는 대화형 태스크.