본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 29. 11:28

LoRA 어댑터 백도어의 토큰 수준 일반화: 공격 특성 분석 및 행동 기반 탐지

요약

LoRA 어댑터가 데이터 오염을 통해 기본 성능을 유지하면서도 백도어를 심을 수 있음을 증명한 연구입니다. 공격이 구조적 패턴이 아닌 토큰 특징 수준에서 일반화되어 특정 참조 유형에만 활성화되는 특성을 분석했습니다.

핵심 포인트

  • LoRA 어댑터의 데이터 오염을 통한 백도어 삽입 가능성 확인
  • 깨끗한 정확도를 유지하며 백도어가 포화 상태에 도달함
  • 백도어가 구조적 패턴이 아닌 토큰 특징 수준에서 일반화됨
  • 특정 참조 유형에만 활성화되는 비대칭적 공격 특성 발견

본 연구에서는 미세 조정된 LLM (Large Language Models)의 지배적인 배포 형식인 LoRA (Low-Rank Adaptation) 어댑터가 기본 작업 성능을 유지하면서도 학습 데이터 오염 (Data Poisoning)을 통해 안정적으로 백도어 (Backdoor)가 심어질 수 있음을 보여줍니다. Qwen 2.5 1.5B 프롬프트 주입 (Prompt-injection) 분류기를 대상으로 실험한 결과, 아주 적은 비율의 오염된 예시만으로도 깨끗한 정확도 (Clean-accuracy)를 유지하는 백도어가 포화 상태에 도달했습니다. 결과적으로 생성된 백도어는 구조적 패턴 수준이 아닌 토큰 특징 (Token feature) 수준에서 일반화됩니다. 즉, 하나의 RFC 참조를 기반으로 학습된 모델은 모든 RFC 참조에서 활성화되지만, 구조적으로 동일한 ISO, OWASP, CWE 또는 NIST 인용에는 전이되지 않습니다. 이러한 비대칭성은 방어자가

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0