arXiv논문2026. 06. 05. 15:45

Model Context Protocol 서버의 런타임 결함 분류 체계

요약

본 논문은 LLM과 외부 도구 간의 상호작용을 지원하는 MCP 서버의 런타임 결함에 대한 최초의 경험적 분류 체계를 제시합니다. 473개의 GitHub 저장소를 분석하여 11개의 상위 카테고리와 27개의 하위 카테고리로 구성된 체계를 도출했습니다.

핵심 포인트

MCP 서버의 런타임 결함에 대한 최초의 경험적 분류 체계 제안
473개 GitHub 저장소 및 837개 결함 스레드 수동 분석 수행
프로토콜 상호작용, 스키마 강제 등 11개 상위 카테고리 도출
개발자 설문 조사를 통해 분류 체계의 외적 타당성 검증 완료

MCP (Model Context Protocol)는 LLM (Large Language Models)이 표준화된 프로토콜을 통해 외부 도구 및 데이터 소스와 상호작용할 수 있도록 지원합니다. 도구 증강 인공지능 (AI) 워크플로우에서의 급격한 채택은 새로운 신뢰성 문제를 야기했습니다. 예를 들어, 설정 매개변수가 수락은 되지만 런타임 (runtime) 시점에 강제되지 않아 의도하지 않은 기본 동작으로 이어지는 경우가 있으며, 이러한 런타임 결함 (runtime fault) 특성은 그동안 경험적으로 검토되지 않았습니다. 본 논문에서는 MCP 서버의 런타임 결함에 대한 최초의 경험적 분류 체계 (taxonomy)를 제시합니다. 우리는 활발히 유지 관리되는 473개의 MCP 서버 GitHub 저장소로부터 837개의 MCP 특화 런타임 결함 스레드를 수동으로 분석하였으며, 상향식 개방 코딩 (bottom-up open coding) 절차를 사용하여 분류 체계를 도출했습니다. 이 분류 체계는 프로토콜 상호작용, 도구 호출 (tool invocations), 스키마 강제 (schema enforcement), 상태 관리 (state management), 모델-제공자 통합 (model-provider integration), 보안 검증 (security validation), 그리고 진행 중인 작업의 타임아웃 (timeout) 또는 명시적 취소에 걸쳐 발생하는 반복적인 실패를 포괄하는 11개의 상위 카테고리와 27개의 하위 카테고리 (73개의 리프 결함 유형)로 구성됩니다. 분류 체계의 외적 타당성을 평가하기 위해 55명의 MCP 서버 개발자를 대상으로 설문 조사를 실시했습니다. 응답자들은 27개의 결함 하위 카테고리 중 평균 20개를 경험했다고 보고했으며, 관찰되지 않은 카테고리는 하나도 없었습니다. 이러한 결과는 본 분류 체계가 MCP 기반 시스템에서 널리 관찰되는 런타임 실패를 반영하고 있음을 나타내며, 향후 AI 소프트웨어 유지보수 및 진화에 도움을 줄 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Model Context Protocol 서버의 런타임 결함 분류 체계

요약

핵심 포인트

댓글