Qwen-AgentWorld-35B-A3B: MCP, 터미널, SWE, Android, 웹 및 OS 환경 시뮬레이션을 위해 학습된
요약
Qwen이 에이전트 환경 시뮬레이션을 위해 학습된 언어 세계 모델인 Qwen-AgentWorld-35B-A3B를 출시했습니다. 이 모델은 MoE 구조를 사용하여 MCP, 터미널, Android, 웹 등 7가지 도메인에서의 환경 변화를 예측합니다.
핵심 포인트
- 35B 규모의 MoE 모델로 토큰당 약 3B의 활성 파라미터 사용
- 에이전트의 행동에 따른 환경의 다음 상태를 예측하는 세계 모델
- MCP, 터미널, 소프트웨어 엔지니어링, Android 등 7개 도메인 지원
- 에이전트 학습, 오프라인 평가 및 샌드박스 환경 구축에 유용
Qwen이 방금 Qwen-AgentWorld-35B-A3B를 출시했습니다. 이는 토큰당 약 3B의 활성 파라미터(active parameters)만을 사용하는 35B 파라미터 규모의 MoE (Mixture-of-Experts) 모델입니다.
흥미로운 점은, 이 모델이 표준적인 채팅/지시(instruction) 모델이나 완전한 자율 에이전트(autonomous agent)로 포지셔닝되지 않았다는 것입니다. 이는 에이전트가 행동을 취한 후 환경이 무엇을 반환할지 예측하도록 학습된 언어 세계 모델 (language world model)입니다.
이 모델은 다음과 같은 7가지 에이전트 상호작용 도메인을 다룹니다:
- MCP / 도구 호출 (tool calling)
- 검색 (Search)
- 터미널 (Terminal)
- 소프트웨어 엔지니어링 (Software engineering)
- Android
- 웹 (Web)
- 운영체제 (Operating-system) GUI 상호작용
의도된 용도는 에이전트 루프 (agent loop)의 환경 측면을 시뮬레이션하는 것으로 보입니다. 즉, 행동 이력(action history)과 새로운 도구/GUI 행동이 주어졌을 때, 다음 관찰값/상태(observation/state)를 예측하는 것입니다. 이는 에이전트 학습, 오프라인 평가, 합성 궤적 (synthetic trajectories), 도구 사용 워크플로우 테스트, 또는 실제 도구를 지속적으로 실행하지 않고도 샌드박스(sandbox)와 같은 환경을 구축하는 데 유용할 수 있습니다.
huggingface 링크
submitted by /u/nikhilprasanth
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기