r/LocalLLaMA분석2026. 06. 24. 15:07

Qwen-AgentWorld-35B-A3B: MCP, 터미널, SWE, Android, 웹 및 OS 환경 시뮬레이션을 위해 학습된

요약

Qwen이 에이전트 환경 시뮬레이션을 위해 학습된 언어 세계 모델인 Qwen-AgentWorld-35B-A3B를 출시했습니다. 이 모델은 MoE 구조를 사용하여 MCP, 터미널, Android, 웹 등 7가지 도메인에서의 환경 변화를 예측합니다.

핵심 포인트

35B 규모의 MoE 모델로 토큰당 약 3B의 활성 파라미터 사용
에이전트의 행동에 따른 환경의 다음 상태를 예측하는 세계 모델
MCP, 터미널, 소프트웨어 엔지니어링, Android 등 7개 도메인 지원
에이전트 학습, 오프라인 평가 및 샌드박스 환경 구축에 유용

Qwen이 방금 Qwen-AgentWorld-35B-A3B를 출시했습니다. 이는 토큰당 약 3B의 활성 파라미터(active parameters)만을 사용하는 35B 파라미터 규모의 MoE (Mixture-of-Experts) 모델입니다.

흥미로운 점은, 이 모델이 표준적인 채팅/지시(instruction) 모델이나 완전한 자율 에이전트(autonomous agent)로 포지셔닝되지 않았다는 것입니다. 이는 에이전트가 행동을 취한 후 환경이 무엇을 반환할지 예측하도록 학습된 언어 세계 모델 (language world model)입니다.

이 모델은 다음과 같은 7가지 에이전트 상호작용 도메인을 다룹니다:

MCP / 도구 호출 (tool calling)
검색 (Search)
터미널 (Terminal)
소프트웨어 엔지니어링 (Software engineering)
Android
웹 (Web)
운영체제 (Operating-system) GUI 상호작용

의도된 용도는 에이전트 루프 (agent loop)의 환경 측면을 시뮬레이션하는 것으로 보입니다. 즉, 행동 이력(action history)과 새로운 도구/GUI 행동이 주어졌을 때, 다음 관찰값/상태(observation/state)를 예측하는 것입니다. 이는 에이전트 학습, 오프라인 평가, 합성 궤적 (synthetic trajectories), 도구 사용 워크플로우 테스트, 또는 실제 도구를 지속적으로 실행하지 않고도 샌드박스(sandbox)와 같은 환경을 구축하는 데 유용할 수 있습니다.

huggingface 링크
submitted by /u/nikhilprasanth
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Qwen-AgentWorld-35B-A3B: MCP, 터미널, SWE, Android, 웹 및 OS 환경 시뮬레이션을 위해 학습된

요약

핵심 포인트

댓글