arXiv논문2026. 05. 27. 12:20

프롬프트 인젝션 탐지는 환경 의존적이다: 해석 가능한 구조적 신호를 활용한 배포 인지적 평가

요약

본 연구는 프롬프트 인젝션 탐지 성능이 실제 배포 환경에 따라 크게 달라짐을 입증합니다. 다양한 탐지 모델을 멀티 환경 프레임워크에서 비교 분석하며, 해석 가능한 구조적 신호가 특정 시나리오에서 방어 성능을 개선함을 보여줍니다.

핵심 포인트

프롬프트 인젝션 탐지 성능은 배포 환경에 따라 가변적임
해석 가능한 구조적 신호가 난도 높은 시나리오에서 유용함
트랜스포머 기반 모델이 전반적으로 가장 강력한 성능을 보임
현실적인 운영 제약 조건을 반영한 평가 체계의 중요성 강조

프롬프트 인젝션 (Prompt injection)은 대규모 언어 모델 (Large Language Models, LLMs)의 안전한 배포에 심각한 위협을 가하지만, 기존의 탐지 방식들은 실제 운영 제약 조건을 반영하지 못하는 제한된 설정 하에서 평가되는 것이 일반적입니다. 본 연구에서는 멀티 모델 및 멀티 환경 (multi-regime) 실험 프레임워크를 사용하여 프롬프트 인젝션 탐지에 대한 배포 인지적 (deployment-aware) 평가를 제시합니다. 우리는 어휘적 (lexical), 의미적 (semantic), 구조적 (structural), 그리고 트랜스포머 기반 (transformer-based) 탐지기들을 여러 분포 외 (out-of-distribution) 설정, 반복된 데이터 분할, 그리고 순위 (ranking) 및 임계값 기반 (thresholded) 배포 지표 전반에 걸쳐 비교합니다. 우리는 계층 구조 무시 (hierarchy overrides), 시스템 프롬프트 사칭 (system prompt spoofing), 역할 재정의 (role redefinition), 그리고 회피 패턴 (evasion patterns)을 포착하는 해석 가능한 구조적 신호 (interpretable structural signals)를 도입하고, 희소 모델 (sparse models) 내부 및 강력한 인코더 베이스라인 (encoder baselines)과의 결합 시 이들의 기여도를 평가합니다. 연구 결과, 탐지 성능은 환경 (regime)에 따라 크게 달라지며 임계값 선택에 민감하게 반응하며, 모든 설정에서 압도적인 성능을 보이는 단일 모델은 존재하지 않는 것으로 나타났습니다. 트랜스포머 기반 모델이 전반적으로 가장 강력한 성능을 달성하는 반면, 구조적 신호는 특정 환경에서 완만하지만 일관된 이득을 제공하며 난도가 높은 시나리오에서 낮은 허위 양성률 (low false positive rate) 동작을 개선합니다. 이러한 발견은 순위 성능 (ranking performance)과 배포 효과성 (deployment effectiveness) 사이의 격차를 강조하며, 현실적인 운영 제약 조건 하에서 프롬프트 인젝션 방어 체계를 평가하는 것의 중요성을 역설합니다. 코드는 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

프롬프트 인젝션 탐지는 환경 의존적이다: 해석 가능한 구조적 신호를 활용한 배포 인지적 평가

요약

핵심 포인트

댓글