VATS: 체계적인 변이를 통한 오류 경로 주입(Error-Path Injection) 내 암묵적 권위 활용
요약
MCP 환경에서 도구 오류 메시지의 암묵적 권위를 악용하는 '오류 경로 주입(Error-Path Injection)' 공격을 분석합니다. VATS 프레임워크를 통해 프런티어 모델들을 테스트한 결과, 오류 컨텍스트를 활용한 공격이 기존 간접 프롬프트 주입보다 훨씬 높은 성공률을 보임을 입증했습니다.
핵심 포인트
- 도구 오류 메시지가 모델의 안전 휴리스틱을 우회하는 권위를 가짐
- VATS 프레임워크를 통한 체계적인 변이 기반 공격 분석 수행
- 오류 컨텍스트 내 지침 삽입(Sandwiching)이 가장 효과적인 공격 벡터
- 프런티어 모델 대상 공격 성공률이 기존 IPI 대비 최대 3배 증가
Model Context Protocol (MCP)이 자율 에이전트(Autonomous Agents)를 위한 도구 호출(Tool-calling)을 표준화함에 따라, 아직 검토되지 않은 중요한 공격 표면인 오류 처리 루프(Error-handling loop)가 등장했습니다. 우리는 도구 오류 메시지가 암묵적 권위(Implicit authority)를 지니고 있어, 표준 안전 휴리스틱(Safety heuristics)을 우회하는 교정적 추론 모드(Corrective reasoning modes)를 유발한다는 가설을 세웠습니다. 우리는 7가지 구조적 및 언어적 차원에 걸쳐 적대적 페이로드(Adversarial payloads)를 체계적으로 진화시키는 변이 기반 프레임워크인 VATS (Vulnerability Analysis of Tool Streams)를 소개합니다. Gemini 3.1 Pro, GPT-5.5, GLM-5.1, Qwen3-Coder 등 4개의 프런티어 모델(Frontier models)을 대상으로 한 평가 결과, 오류 경로 주입(Error-path injection)은 표준 간접 프롬프트 주입(Indirect Prompt Injection, IPI)의 성공률을 3배 높였으며, 통제된 평가에서 최대 100%의 준수율을 달성했습니다. 우리는 테스트된 모든 모델에서 구조적 배치(오류 컨텍스트 내에 지침을 샌드위치처럼 끼워 넣는 방식)가 가장 효과적인 취약점 공격 벡터(Exploit vector)임을 확인했습니다. 프로덕션 프레임워크의 가드레일(Guardrails)이 이러한 취약점을 완화할 수 있음을 발견했으나, 모델 계층(Model layer) 자체의 내재적인 취약성은 맞춤형 에이전트 워크플로우(Bespoke agentic workflows)에 체계적인 위험을 초래합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기