거부의 이면: 행동 모니터링을 통한 가드레일 활성화 판별
요약
LLM 시스템에서 가드레일에 의한 차단과 모델 자체의 거부를 구분하는 블랙박스 정찰 방법론을 제안합니다. HTTP, 어휘, 타이밍 신호 모니터링을 통해 가드레일의 존재와 차단 카테고리를 높은 정확도로 탐지할 수 있음을 입증했습니다.
핵심 포인트
- 가드레일 차단과 LLM 거부의 구분은 공격 최적화에 필수적임
- 블랙박스 환경에서 행동 모니터링을 통한 가드레일 탐지 방법론 제안
- 실험 결과 가드레일 존재 여부를 100% 정확도로 탐지
- 미학습 프롬프트에 대해 평균 F1 스코어 98%의 구분 성능 달성
대규모 언어 모델 (LLMs) 및 에이전트 시스템 (agentic systems)이 실제 애플리케이션에 통합됨에 따라, 이들의 안전성과 보안을 보장하는 것이 매우 중요해졌습니다. LLM으로 전송되거나 LLM으로부터 전송되는 악의적인 지시를 탐지하고 차단하는 가드레일 (Guardrail) 시스템은 AI 보안의 필수적인 구성 요소입니다. 그러나 프로덕션 AI 시스템을 대상으로 블랙박스 적대적 에뮬레이션 (black-box adversarial emulation)을 수행하는 연구자들은 가드레일에 의한 차단인지, 아니면 LLM의 거부 (rejection)인지 판별하는 데 종종 어려움을 겪습니다. 이러한 구분은 가드레일을 우회하는 데 사용되는 기술이 LLM의 안전 정렬 (safety alignment)을 우회하는 기술과 실질적으로 다를 수 있으며, 공격 기술의 선택 및 최적화에 중대한 영향을 미치기 때문에 중요합니다. 본 논문에서는 블랙박스 접근 권한만을 가지며 가드레일이나 AI 시스템에 대한 사전 지식이 전혀 없다는 가정하에, HTTP, 어휘적 (lexical), 그리고 타이밍 신호 (timing signals)의 행동 모니터링을 통해 대상 AI 시스템 내 가드레일의 존재를 탐지하는 최초의 블랙박스 가드레일 정찰 (guardrail reconnaissance) 방법론을 제안합니다. 실험 결과, 우리의 접근 방식은 가드레일의 존재를 100% 정확도로 탐지하였으며, 선량한 상호작용과 악의적인 상호작용 사이에서 통계적으로 유의미한 행동적 분리 (q < 0.001)를 보여주었습니다. 또한, 우리의 접근 방식은 가드레일이 차단하도록 설계된 콘텐츠 카테고리를 식별하며, 학습되지 않은 프롬프트에 대해 가드레일 차단과 LLM 거부를 평균 F1 스코어 98%로 구분해냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기