arXiv논문2026. 05. 29. 11:28

LoRA 어댑터 백도어의 토큰 수준 일반화: 공격 특성 분석 및 행동 기반 탐지

요약

LoRA 어댑터가 데이터 오염을 통해 기본 성능을 유지하면서도 백도어를 심을 수 있음을 증명한 연구입니다. 공격이 구조적 패턴이 아닌 토큰 특징 수준에서 일반화되어 특정 참조 유형에만 활성화되는 특성을 분석했습니다.

핵심 포인트

LoRA 어댑터의 데이터 오염을 통한 백도어 삽입 가능성 확인
깨끗한 정확도를 유지하며 백도어가 포화 상태에 도달함
백도어가 구조적 패턴이 아닌 토큰 특징 수준에서 일반화됨
특정 참조 유형에만 활성화되는 비대칭적 공격 특성 발견

본 연구에서는 미세 조정된 LLM (Large Language Models)의 지배적인 배포 형식인 LoRA (Low-Rank Adaptation) 어댑터가 기본 작업 성능을 유지하면서도 학습 데이터 오염 (Data Poisoning)을 통해 안정적으로 백도어 (Backdoor)가 심어질 수 있음을 보여줍니다. Qwen 2.5 1.5B 프롬프트 주입 (Prompt-injection) 분류기를 대상으로 실험한 결과, 아주 적은 비율의 오염된 예시만으로도 깨끗한 정확도 (Clean-accuracy)를 유지하는 백도어가 포화 상태에 도달했습니다. 결과적으로 생성된 백도어는 구조적 패턴 수준이 아닌 토큰 특징 (Token feature) 수준에서 일반화됩니다. 즉, 하나의 RFC 참조를 기반으로 학습된 모델은 모든 RFC 참조에서 활성화되지만, 구조적으로 동일한 ISO, OWASP, CWE 또는 NIST 인용에는 전이되지 않습니다. 이러한 비대칭성은 방어자가

AI 자동 생성 콘텐츠

원문 바로가기

LoRA 어댑터 백도어의 토큰 수준 일반화: 공격 특성 분석 및 행동 기반 탐지

요약

핵심 포인트

댓글