arXiv논문2026. 06. 02. 13:06

MCP-Persona: 환경 시뮬레이션을 통한 실세계 개인용 애플리케이션에서의 LLM 에이전트 벤치마킹

요약

MCP-Persona는 개인용 애플리케이션 환경에서 LLM 에이전트의 성능을 평가하기 위해 설계된 최초의 벤치마크입니다. 소셜 미디어와 협업 도구 등 실세계의 개인화된 MCP 도구 사용 능력을 측정하여 기존 벤치마크의 한계를 보완합니다.

핵심 포인트

개인화된 MCP 도구 사용을 위한 전용 벤치마크 제안
소셜 미디어 및 기업 협업 도구 환경 시뮬레이션 포함
SOTA 에이전트들의 개인화 도구 활용 한계 입증
GitHub을 통해 벤치마크 데이터 및 코드 공개

Model Context Protocol (MCP)은 대규모 언어 모델 (LLMs)을 외부 데이터 소스 및 도구와 연결하는 혁신적인 표준으로 부상하였으며, 개인용 애플리케이션과 개발 플랫폼 전반에 걸쳐 빠르게 채택되고 있습니다. 그러나 기존의 벤치마크 (benchmarks)는 주로 일반적인 정보 검색 도구에 집중되어 있으며, 도구가 개인 계정이나 로컬 데이터베이스와 상호작용하는 개인용 소셜 애플리케이션에서 발생하는 실질적인 과제들을 포착하지 못하고 있습니다. 이러한 결정적인 격차를 메우기 위해, 우리는 실세계의 개인화된 MCP 도구에 대한 에이전트 성능을 평가하기 위해 특별히 설계된 최초의 벤치마크인 MCP-Persona를 소개합니다. MCP-Persona는 Reddit 및 Xiaohongshu (Rednote)와 같은 소셜 미디어 플랫폼부터 Lark (Feishu) 및 Slack과 같은 기업 협업 스위트 (collaboration suites)에 이르기까지 널리 사용되는 다양한 애플리케이션 세트를 포함합니다. 다양한 최첨단 (SOTA) 에이전트들을 대상으로 진행한 광범위한 실험을 통해, 이들이 개인화된 도구 사용에 있어 상당한 어려움을 겪는다는 것을 입증하였으며, 이를 통해 이러한 한계를 식별하고 해결하는 데 있어 본 벤치마크의 중요한 역할을 강조합니다. MCP-Persona는 https://github.com/wwh0411/MCP-Persona 에서 공개적으로 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MCP-Persona: 환경 시뮬레이션을 통한 실세계 개인용 애플리케이션에서의 LLM 에이전트 벤치마킹

요약

핵심 포인트

댓글