arXiv논문2026. 06. 09. 10:53

VATS: 체계적인 변이를 통한 오류 경로 주입(Error-Path Injection) 내 암묵적 권위 활용

요약

MCP 환경에서 도구 오류 메시지의 암묵적 권위를 악용하는 '오류 경로 주입(Error-Path Injection)' 공격을 분석합니다. VATS 프레임워크를 통해 프런티어 모델들을 테스트한 결과, 오류 컨텍스트를 활용한 공격이 기존 간접 프롬프트 주입보다 훨씬 높은 성공률을 보임을 입증했습니다.

핵심 포인트

도구 오류 메시지가 모델의 안전 휴리스틱을 우회하는 권위를 가짐
VATS 프레임워크를 통한 체계적인 변이 기반 공격 분석 수행
오류 컨텍스트 내 지침 삽입(Sandwiching)이 가장 효과적인 공격 벡터
프런티어 모델 대상 공격 성공률이 기존 IPI 대비 최대 3배 증가

Model Context Protocol (MCP)이 자율 에이전트(Autonomous Agents)를 위한 도구 호출(Tool-calling)을 표준화함에 따라, 아직 검토되지 않은 중요한 공격 표면인 오류 처리 루프(Error-handling loop)가 등장했습니다. 우리는 도구 오류 메시지가 암묵적 권위(Implicit authority)를 지니고 있어, 표준 안전 휴리스틱(Safety heuristics)을 우회하는 교정적 추론 모드(Corrective reasoning modes)를 유발한다는 가설을 세웠습니다. 우리는 7가지 구조적 및 언어적 차원에 걸쳐 적대적 페이로드(Adversarial payloads)를 체계적으로 진화시키는 변이 기반 프레임워크인 VATS (Vulnerability Analysis of Tool Streams)를 소개합니다. Gemini 3.1 Pro, GPT-5.5, GLM-5.1, Qwen3-Coder 등 4개의 프런티어 모델(Frontier models)을 대상으로 한 평가 결과, 오류 경로 주입(Error-path injection)은 표준 간접 프롬프트 주입(Indirect Prompt Injection, IPI)의 성공률을 3배 높였으며, 통제된 평가에서 최대 100%의 준수율을 달성했습니다. 우리는 테스트된 모든 모델에서 구조적 배치(오류 컨텍스트 내에 지침을 샌드위치처럼 끼워 넣는 방식)가 가장 효과적인 취약점 공격 벡터(Exploit vector)임을 확인했습니다. 프로덕션 프레임워크의 가드레일(Guardrails)이 이러한 취약점을 완화할 수 있음을 발견했으나, 모델 계층(Model layer) 자체의 내재적인 취약성은 맞춤형 에이전트 워크플로우(Bespoke agentic workflows)에 체계적인 위험을 초래합니다.

AI 자동 생성 콘텐츠

원문 바로가기

VATS: 체계적인 변이를 통한 오류 경로 주입(Error-Path Injection) 내 암묵적 권위 활용

요약

핵심 포인트

댓글