X요약2026. 06. 25. 01:20

Alibaba, GPT-5.4, Claude Opus 4.8, Gemini 3.1 Pro를 능가하는 AI 개발

요약

Alibaba가 실제 환경 대신 시뮬레이션된 '세계 모델(world model)'을 통해 학습한 Qwen-AgentWorld를 공개했습니다. 이 모델은 7개 도메인에서 1,000만 회 이상의 시뮬레이션 상호작용을 거쳐 GPT-5.4 등 주요 프런티어 모델을 능가하는 성능을 보여주었습니다.

핵심 포인트

실제 환경 대신 시뮬레이션된 세계 모델을 사용하여 학습 비용과 리스크를 최소화함
소프트웨어 엔지니어링, 웹 브라우징, OS 제어 등 7개 핵심 도메인 학습
AgentWorldBench 테스트 결과 GPT-5.4 및 Claude Opus 4.8보다 높은 성능 기록
시뮬레이션 후 실제 환경으로 기술을 전이하는 새로운 AI 에이전트 학습 패러다임 제시

Alibaba는 GPT-5.4, Claude Opus 4.8, 그리고 Gemini 3.1 Pro를 능가하는 AI를 구축했습니다.

이 AI는 학습을 위해 실제 컴퓨터를 단 한 번도 사용하지 않았습니다.

1,000만 회 이상의 시뮬레이션 상호작용. 7개 도메인. 리스크 제로.

대부분의 AI 에이전트 (AI agents)는 실제 환경에서 행동하며 학습하지만, 이는 느리고 비용이 많이 들며 제한적입니다.

Qwen-AgentWorld는 이를 뒤집습니다. 에이전트가 실제 환경을 건드리지 않고도 대규모로 연습할 수 있도록 실제 환경(웹, OS, 터미널, 검색)을 시뮬레이션하는 "세계 모델 (world model)"을 구축합니다.

이 모델은 7개 도메인에 걸쳐 1,000만 회 이상의 실제 환경 상호작용을 통해 학습되었습니다:

→ 소프트웨어 엔지니어링 (Software engineering)
→ 터미널 명령어 (Terminal commands)
→ 웹 브라우징 (Web browsing)
→ 검색 (Search)
→ OS 제어 (OS control)
→ Android
→ MCP (도구 사용)

그 후, 이 모든 것을 시뮬레이션하는 법을 배웠습니다.

이것이 중요한 이유:

실제 환경에서 AI 에이전트를 학습시키는 것은 느리고 위험합니다 (AI 에이전트가 당신의 실제 파일 시스템에서 연습한다고 상상해 보세요).

세계 모델 (world model)은 에이전트가 수천 개의 시나리오를 안전하게 리허설한 다음, 그 기술을 실제 작업으로 전이(transfer)할 수 있게 해줍니다.

AgentWorldBench에서의 결과:

Qwen-AgentWorld-397B: 58.8
GPT-5.4: 58.2
Claude Opus 4.8: 56.6
Gemini 3.1 Pro: 54.6
DeepSeek-V4-Pro: 53.0

이 모델은 현실적인 에이전트 환경을 시뮬레이션하는 데 있어 모든 프런티어 모델 (frontier models)을 능가합니다.

벤치마크 자체도 방대합니다:

→ 2,170개의 평가 샘플
→ 7개 에이전트 도메인 (Web, OS, Android, Search, Terminal, SWE, MCP)
→ 9개의 소스 벤치마크
→ 테스트된 5개의 프런티어 모델
→ 5가지 차원(형식, 사실성, 일관성, 현실성, 품질)에 걸친 평가

이는 미래의 AI 에이전트가 학습되는 방식에 대한 초기 청사진이 될 수 있습니다: 먼저 시뮬레이션하고, 그 후에 배포하는 방식입니다.

더 많은 AI 연구 분석을 보려면 @TheWhizzAI를 팔로우하세요.

전체 논문, 코드 및 모델은 아래 링크에 있습니다.
논문 링크:
https://arxiv.org/pdf/2606.24597
저장소 코드:
https://github.com/QwenLM/Qwen-Ag

AI 자동 생성 콘텐츠

원문 바로가기

Alibaba, GPT-5.4, Claude Opus 4.8, Gemini 3.1 Pro를 능가하는 AI 개발

요약

핵심 포인트

댓글