arXiv논문2026. 06. 23. 11:15

OTTER: 독성 회피 탈옥 프롬프트 최적화를 위한 레드팀 (Red-Teaming) 시스템

요약

OTTER는 LLM의 독성 기반 중재 필터를 우회하기 위한 블랙박스 레드팀 프레임워크입니다. 단 5개의 토큰 교체만으로 표면적 독성과 적대적 의도를 분리할 수 있음을 증명하며, 공격 성공률(ASR)을 대폭 향상시켰습니다.

핵심 포인트

독성 기반 중재 필터의 근본적인 취약성 입증
블랙박스 환경에서 작동하는 OTTER 프레임워크 제안
GPT 모델 대상 공격 성공률(ASR)을 7.0%에서 84.0%로 증가
실제 배포 환경을 위한 분류기 강화(classifier hardening) 방안 제시

상용 LLM (Large Language Models)은 유해한 의도가 독성 있는 표면적 문구와 상관관계가 있다고 가정하며, 주요 방어 수단으로서 독성 기반의 중재 필터 (moderation filters)에 점점 더 의존하고 있습니다. 우리는 이러한 가정이 근본적으로 취약하다는 것을 보여줍니다. 단 5개의 토큰 (tokens)만 교체해도 표면적인 독성 (surface toxicity)과 적대적 의도 (adversarial intent)를 분리할 수 있습니다. 우리는 표준 API 접근 권한만을 필요로 하는 블랙박스 레드팀 (black-box red-teaming) 프레임워크인 OTTER (Obfuscated Toxicity-Evading Token Evolution for Rewriting)를 제시하며, 이는 산업 보안 감사 (security audits)의 실제적인 제약 사항을 직접적으로 겨냥합니다. 4개의 GPT 모델에 걸쳐 457개의 AdvBench 프롬프트를 대상으로 평가한 결과, OTTER는 평균 ASR (Attack Success Rate)을 7.0%에서 84.0%로 높였습니다. 나아가 우리는 독성-우회 (toxicity--bypass) 관계에 대한 최초의 정량적 분석과 카테고리별 세부 분석을 제공하며, 우리의 연구 결과를 실제 배포 환경에서의 분류기 강화 (classifier hardening)를 위한 실행 가능한 권장 사항으로 변환하여 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

OTTER: 독성 회피 탈옥 프롬프트 최적화를 위한 레드팀 (Red-Teaming) 시스템

요약

핵심 포인트

댓글