외부화된 공격-방어 공동 진화를 통한 모델 불가지론적 평생 LLM 안전성 (Model-Agnostic Lifelong LLM Safety
요약
본 논문은 LLM이 적대적 프롬프트에 취약하다는 문제점을 해결하기 위해 EvoSafety라는 새로운 안전성 프레임워크를 제안합니다. 기존의 폐쇄적인 안전 패러다임과 달리, EvoSafety는 외부 구조를 중심으로 구축되어 지속 가능하고 재사용 가능한 공격 및 방어 메커니즘을 제공합니다. 특히, 적대적 기술 라이브러리를 통해 포화 이후에도 취약점 조사가 가능하며, 메모리 검색으로 증강된 경량 보조 모델을 사용하여 모델 불가지론적인 안전성 향상과 강건성을 확보했습니다.
핵심 포인트
- EvoSafety는 외부 구조를 중심으로 설계되어 지속적이고 재사용 가능한 LLM 안전 프레임워크를 제공합니다.
- 공격 측면에서 적대적 기술 라이브러리를 활용하여 취약점 조사의 포화 문제를 해결하고 공격 벡터의 진화를 지원합니다.
- 방어 측면에서는 메모리 검색으로 증강된 경량 보조 모델을 사용하여 모델 불가지론적인 안전성 향상과 전이 가능한 강건성을 확보했습니다.
- EvoSafety는 Steer 모드(내재적 방어 활성화)와 Guard 모드(유해 입력 필터링)를 모두 지원하여 다각적인 방어 정책을 구현합니다.
대규모 언어 모델 (Large language models, LLM)은 유해한 출력을 유도하는 적대적 프롬프트 (adversarial prompts)에 여전히 취약합니다. 기존의 안전 패러다임은 일반적으로 레드팀 (red-teaming)과 사후 학습 (post-training)을 폐쇄적이고 정책 중심적인 루프 (policy-centric loop)로 결합하여, 공격 발견이 빠르게 포화 상태에 도달하고 새로운 실패 모드 (failure modes)의 노출을 제한하는 반면, 방어는 비효율적이고 경직되며 피해 모델 (victim models) 간의 전이가 어렵게 만듭니다. 이를 위해, 우리는 지속 가능하고, 검사 가능하며, 재사용 가능한 외부 구조를 중심으로 구축된 LLM 안전 프레임워크인 EvoSafety를 제안합니다. 레드팀 (red teaming)을 위해, EvoSafety는 공격 정책 (attack policy)에 적대적 기술 라이브러리 (adversarial skill library)를 갖추어, 포화 이후에도 단순한 라이브러리 확장을 통해 지속적인 취약점 조사가 가능하게 하며, 적대적 벡터 (adversarial vectors)의 진화를 지원합니다. 방어 학습 (defense learning)을 위해, EvoSafety는 모델 특정적 안전 미세 조정 (model-specific safety fine-tuning)을 메모리 검색 (memory retrieval)으로 증강된 경량 보조 방어 모델 (auxiliary defense model)로 대체합니다. 이를 통해 효율적이고 전이 가능하며 모델 불가지론적 (model-agnostic)인 안전성 향상을 가능하게 하는 동시에, 오직 메모리 업데이트만을 통해 강건성 (robustness)을 강화할 수 있습니다. 단일 학습 절차를 통해, 방어 정책 (defense policy)은 Steer 모드와 Guard 모드 모두에서 작동할 수 있습니다. 전자는 피해 모델의 내재적 방어 메커니즘을 활성화하며, 후자는 유해한 입력을 직접 필터링합니다. 광범위한 실험을 통해 EvoSafety의 우수성을 입증했습니다. Guard 모드에서 EvoSafety는 99.61%의 방어 성공률을 달성하였으며, 이는 Qwen3Guard-8B의 37.5% 파라미터만을 사용하고도 Qwen3Guard-8B보다 14.13% 높은 성능을 보였으며, 동시에 무해한 질의 (benign queries)에 대한 추론 성능을 유지했습니다. 경고: 이 논문에는 잠재적으로 유해한 텍스트가 포함되어 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기