MCP-Cosmos: 복잡한 작업 실행을 위한 World Model 증강 에이전트 (MCP Environments)
요약
MCP-Cosmos는 대규모 언어 모델(LLMs)과 외부 도구 간의 인터페이스인 MCP 생태계에 World Model (WM)을 통합하여 에이전트의 예측적 작업 자동화를 가능하게 하는 프레임워크입니다. 이 프레임워크는 'Bring Your Own World Model' (BYOWM) 전략을 통해, 에이전트가 실제 실행 전에 잠재 공간에서 상태 전이를 시뮬레이션하고 계획을 개선할 수 있도록 합니다. 실험 결과, MCP-Cosmos는 도구 성공률 및 매개변수 정확도 등 핵심 성과 지표(KPI)를 크게 향상시키며, 새로운 평가 메트릭을 제공하여 에이전트 시스템의 신뢰성을 높였습니다.
핵심 포인트
- MCP-Cosmos는 LLM 기반 에이전트가 환경 역학을 고려한 예측적 계획 수립을 가능하게 하는 통합 프레임워크이다.
- 기존의 작업 수준 계획과 반응적 실행 방식의 한계를 극복하고, World Model을 통해 장기적인 상태 전이 시뮬레이션 및 계획 개선을 수행한다.
- 'Bring Your Own World Model' (BYOWM) 전략을 도입하여 다양한 외부 환경 모델과의 호환성을 확보했다.
- 실험적으로 도구 성공률과 매개변수 정확도 등 핵심 상호작용 KPI를 향상시켰으며, 실행 품질(Execution Quality) 같은 새로운 평가 지표를 제시했다.
Model Context Protocol (MCP)은 대규모 언어 모델(LLMs)과 외부 도구 간의 인터페이스를 통합했지만, 에이전트가 작동하는 환경을 개념화하는 방식에는 근본적인 격차가 남아 있습니다. 현재 패러다임은 양분되어 있습니다: 작업 수준 계획은 종종 실행 시간 역학을 무시하며, 반응적 실행은 장기 예측력이 부족합니다. 본 논문에서는 생성형 World Model (WM)을 MCP 생태계에 주입하여 예측적 작업 자동화를 가능하게 하는 프레임워크인 MCP-Cosmos를 제시합니다. MCP, World Model, 에이전트라는 세 가지 이질적인 기술을 통합함으로써, 우리는 'Bring Your Own World Model' (BYOWM) 전략이 에이전트가 실행 전에 잠재 공간에서 상태 전이를 시뮬레이션하고 계획을 개선할 수 있도록 함을 입증합니다. 본 연구는 2개의 계획 모델과 3개의 대표적인 world model을 사용하여 20개 이상의 MCP-Bench 태스크에 대해 ReAct와 SPIRAL이라는 두 가지 전략으로 실험을 수행했습니다. 그 결과, 에이전트의 환경 상호작용 KPI(핵심 성과 지표)인 도구 성공률 및 도구 매개변수 정확도에서 개선을 관찰했습니다. 또한 이 프레임워크는 기준선 대비 world model의 효과에 대한 새로운 통찰력을 생성하기 위해 실행 품질(Execution Quality)과 같은 새로운 메트릭을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기