LLM 안전성 내 다양한 취약점 발견을 위한 품질-다양성 진화 (Quality-Diversity Evolution)
요약
LLM의 적대적 테스트 시 발생하는 커버리지 격차와 모드 붕괴 문제를 해결하기 위해 의미론적 수준에서 작동하는 품질-다양성(Quality-Diversity) 진화 프레임워크를 제안합니다. MAP-Elites를 활용해 해석 가능한 공격 전략을 생성하며, 주요 모델별 취약점 프로필을 체계적으로 분석합니다.
핵심 포인트
- 의미론적 수준의 품질-다양성 진화 프레임워크 제안
- MAP-Elites를 통한 다양한 공격 전략 아카이브 유지
- GPT-4o-mini, Gemini, Claude 등 모델별 취약점 차이 발견
- 해석 가능한 공격을 통한 LLM 안전성 개선 통찰력 제공
현재 LLM (Large Language Model) 적대적 테스트 (adversarial testing) 방식은 커버리지 격차(coverage gaps) 문제를 겪고 있습니다. 수동 레드팀 (red-teaming) 방식은 확장성이 부족하고, LLM-as-attacker 방식은 모드 붕괴 (mode collapse) 현상을 보이며, 그래디언트 기반 (gradient-based) 방식은 해석 불가능한 의미 없는 문자열 (gibberish)을 생성합니다. 본 연구에서는 토큰 시퀀스 (token sequences) 대신 해석 가능한 공격 전략을 진화시키는, 의미론적 수준 (semantic level)에서 작동하는 품질-다양성 (quality-diversity) 진화 프레임워크를 소개합니다. MAP-Elites를 사용하여 행동 차원(전략 유형, 인코딩 방식, 프롬프트 길이)에 걸쳐 다양한 공격 아카이브를 유지합니다. GPT-4o-mini, Claude 3.5 Sonnet, Gemini 2.0 Flash, 그리고 오픈 웨이트 (open-weight) 코딩 모델 (Devstral-small-2)을 대상으로 한 실험을 통해 우리는 뚜렷한 취약점 프로필을 발견했습니다. GPT-4o-mini는 ROT13 인코딩과 결합된 가설적 및 다회차 프레임 (hypothetical and multi-turn framing)에 취약하며 (적합도 0.8), Gemini는 ROT13을 사용한 직접 공격 및 Leetspeak를 사용한 다회차 공격에 취약합니다 (0.8), 반면 Claude는 모든 전략에 대해 일관되게 모호한 응답을 보입니다 (최대 0.4). 이러한 의미론적 표현 (semantic representation)은 모델별로 체계적인 약점을 드러내는 해석 가능한 공격을 생성하며, LLM 안전성을 개선하기 위한 실행 가능한 통찰력을 제공하고 향후 프론티어 모델 (frontier models)을 평가하기 위한 재현 가능한 베이스라인을 제공합니다. 코드 및 실험 결과물은 https://github.com/bassrehab/red-queen 에서 공개됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기