arXiv논문2026. 06. 17. 12:28

ProvenanceGuard: MCP 기반 LLM 에이전트를 위한 출처 인식 사실성 검증

요약

MCP 기반 LLM 에이전트가 답변 시 출처를 잘못 지정하는 '교차 출처 혼동' 문제를 해결하기 위한 ProvenanceGuard를 제안합니다. 이 시스템은 MCP 트레이스를 분석하여 주장을 원자 단위로 분해하고, NLI와 토큰 정렬을 통해 각 주장의 출처 적합성을 검증합니다.

핵심 포인트

MCP 기반 에이전트의 출처 인식 사실성 검증 프레임워크 제안
주장을 원자적 단위로 분해하여 출처별 증거와 매칭하는 방식 사용
의료 도메인 실험 결과, 높은 출처 정확도와 차단 F1 점수 달성
잘못된 귀속을 탐지한 후 검색 증강 답변 수정을 통해 복구 가능

도구 사용 LLM 에이전트들은 검색, API, 데이터베이스, 임상 기록 및 처방집 도구를 포함한 이질적인 증거 소스로부터 답변하기 위해 Model Context Protocol (MCP)을 점점 더 많이 사용하고 있습니다. 표준 사실성 지표(factuality metrics)는 대개 답변이 통합된 증거에 의해 뒷받침되는지를 테스트하지만, 출처에 민감한 실패 모드(provenance-sensitive failure mode)를 놓치고 있습니다. 즉, 어떤 주장이 어딘가에서는 뒷받침될 수 있지만 잘못된 출처로 귀속될 수 있다는 점입니다. 우리는 이를 교차 출처 혼동(cross-source conflation)이라고 부릅니다. 우리는 MCP에 기반한 답변을 위한 출처 인식 검증기인 ProvenanceGuard를 소개합니다. 이 시스템은 안정적인 도구 ID, 출처 ID 및 원시 출력(raw outputs)이 포함된 캡처된 MCP 트레이스(traces)를 소비합니다. 이후 답변을 원자적 주장(atomic claims)으로 분해하고, 주장을 출처별 증거로 라우팅하며, 자연어 추론 (NLI) 및 토큰 정렬 프록시(token-alignment proxy)를 통해 뒷받침 여부를 확인합니다. 또한 명시된 귀속(attribution)을 라우팅된 출처와 비교하며, 주장별 판결과 답변 수준의 허용/차단(allow/block) 결정을 반환합니다. 차단된 답변은 검색 증강 답변 수정(retrieval-augmented answer revision)을 통해 복구될 수 있으며 재검증됩니다. 우리는 281개의 의료 도메인 MCP 에이전트 트레이스를 통해 평가를 수행했습니다. 판정된 266개 트레이스 하위 집합은 트레이스별로 나뉜 2,325개의 LLM 보조 주장 레이블을 생성하며, 이 중 361개의 홀드아웃(held-out) 레이블은 인간에 의해 검증되었습니다. 40개 트레이스의 홀드아웃 분할에서 ProvenanceGuard는 260개의 출처 적격 주장(source-eligible claims)에 대해 0.802의 차단 F1 점수와 0.858의 출처 정확도를 달성하였으며, 이는 주장-출처 ID를 생성하지 않는 출처 인식 불능(source-blind) 베이스라인 모델보다 우수한 성능을 보였습니다. 더 어려운 다중 출처 벤치마크에서는 차단 F1 0.846에 도달한 반면, 출처 및 관계 정확도(source-plus-relation accuracy)는 0.229로 떨어졌는데, 이는 의미론적으로 유사한 출처들이 있을 때 정확한 출처 소유권을 파악하는 것이 여전히 어렵다는 것을 보여줍니다. 복구 및 재검증(Repair-and-reverify)은 종종 보수적인 폴백(fallback)을 통해 전체 트레이스 세트의 모든 차단된 답변을 해결합니다. 50개의 통제된 임상 혼동 프로브(clinical conflation probes)에서 ProvenanceGuard는 주입된 모든 귀속 교체(attribution swaps)를 잘못된 귀속을 남기지 않고 모두 탐지했습니다. 이러한 결과는 출처 귀속이 MCP 기반 에이전트의 사실성 검증을 위한 독립적인 축임을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

ProvenanceGuard: MCP 기반 LLM 에이전트를 위한 출처 인식 사실성 검증

요약

핵심 포인트

댓글