arXiv논문2026. 06. 01. 11:30

EvoDefense: 대규모 언어 모델(LLM)을 활용한 공동 진화형 블랙박스 방어 기법

요약

EvoDefense는 블랙박스 환경에서 LLM을 보호하기 위한 경험 유도형 공동 진화 방어 기법입니다. 가드 LLM과 경험 메모리 모듈을 통해 공격과 방어 전략을 지속적으로 개선하며, 재학습 없이도 미지의 공격에 효과적으로 대응합니다.

핵심 포인트

경험 유도형 공동 진화 루프를 통한 공격-방어 최적화
경험 메모리 모듈을 활용한 방어 지식 축적 및 일반화
재학습 없이도 미지의 공격 및 모델 아키텍처에 대응 가능
HarmBench 등 주요 벤치마크에서 강력한 방어 성능 입증

대규모 언어 모델 (LLMs)은 다양한 공격에 여전히 매우 취약하며, 특히 대상 모델의 내부 구조에 접근할 수 없는 블랙박스 (black-box) 환경에서 더욱 그러합니다. 기존의 블랙박스 방어 방식은 일반적으로 사전에 정의된 필터링 휴리스틱 (heuristics)에 의존하는데, 이는 보지 못한 공격 유형이나 대상 모델 아키텍처 (architectures)로 일반화하는 데 종종 실패합니다. 우리는 경험 유도형 공동 진화 블랙박스 방어 패러다임인 EvoDefense를 소개합니다. EvoDefense는 악성 쿼리를 탐지하기 위한 가드 LLM (guard LLM)과 이전 상호작용으로부터 방어 지식을 축적하기 위한 경험 메모리 모듈 (experience memory module)을 채택합니다. EvoDefense의 핵심은 지속적인 공격-방어 진화 루프 (attack-defense evolution loop)로, 여기서 공격 생성기 (attack generator)와 가드 모델은 경험 유도 최적화 (experience-guided optimization)를 통해 공격 전략과 방어 정책을 반복적으로 개선합니다. 이러한 설계 덕분에 EvoDefense는 재학습 없이도 보지 못한 공격과 대상 모델에 대해 일반화할 수 있습니다. HarmBench, AdvBench, AlpacaEval에 대한 실험 결과, EvoDefense는 경쟁력 있는 일반 능력을 유지하면서 7개의 대중적인 모델과 5개의 대표적인 LLM 공격에 대해 일관되게 강력한 방어 성능을 달성함을 보여주었습니다. HarmBench에서 EvoDefense는 Gemini-3-flash 및 LLaMA-3-8B-Instruct에 대한 AutoDAN-turbo의 공격 성공률 (ASR)을 각각 29.4%와 43.4%에서 8.4%와 6.2%로 낮추었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

EvoDefense: 대규모 언어 모델(LLM)을 활용한 공동 진화형 블랙박스 방어 기법

요약

핵심 포인트

댓글