arXiv논문2026. 06. 03. 12:13

백도어 언러닝 일반화: LLM 내 미지의 트리거 제거를 향한 경로

요약

LLM 내 미지의 백도어 공격을 방어하기 위해 언러닝(unlearning)의 일반화 가능성을 연구합니다. 특정 트리거를 제거하는 것만으로도 명시적으로 타겟팅되지 않은 다른 백도어까지 억제할 수 있음을 입증했습니다.

핵심 포인트

단일 트리거 언러닝을 통한 다중 백도어 억제 효과 확인
교차 활성화 이동 거리(CASD) 지표를 통한 모델 변화 정량화
백도어 간 전이 현상을 활용한 LLM 보안 강화 방향 제시

대규모 언어 모델 (LLMs)에서의 백도어 공격 (Backdoor attacks)은 모델이 공격자가 선택한 콘텐츠를 생성할 수 있게 한다는 점에서 점점 커지는 보안 우려 사항입니다. 기존의 방어 기제들은 백도어를 한 번에 하나씩 목표로 하며, 일반적으로 트리거 (trigger)에 대한 지식을 필요로 합니다. 이는 모델 내에 미지의 백도어가 존재할 수 있는 상황에서 방어자를 구조적인 불리함에 처하게 합니다. 본 연구에서는 언러닝 (unlearning)을 통한 백도어 중화가 여러 백도어에 걸쳐 일반화될 수 있음을 보여줍니다. 즉, 단일 트리거를 무시하도록 모델을 학습시키는 것만으로도 명시적으로 타겟팅되지 않았던 다른 백도어들까지 억제할 수 있습니다. 우리는 사전 학습 (pretraining) 또는 지속적 사전 학습 (continual pretraining)을 통해 백도어가 주입된 세 가지 모델 제품군을 대상으로, 한 번에 하나의 백도어를 제거한 후 얻은 모델들을 분석함으로써 이 현상을 연구합니다. 특정 백도어를 언러닝하는 것이 왜 다른 백도어의 억제를 유도하는지 이해하기 위해, 우리는 서로 다른 학습에 의해 유도된 모델 변화 사이의 거리를 정량화하는 교차 활성화 이동 거리 (Cross Activation Shift Distance)를 도입합니다. 우리의 연구 결과는 LLM 안전성을 위한 새로운 방향을 제시합니다. 방어자가 의도적으로 제어된 백도어를 주입한 다음 이를 제거함으로써, 백도어 간 전이 (cross-backdoor transfer)를 활용하여 공격자가 이전에 모델에 도입했을 수 있는 미지의 백도어까지 함께 억제할 수 있기 때문입니다.

AI 자동 생성 콘텐츠

원문 바로가기

백도어 언러닝 일반화: LLM 내 미지의 트리거 제거를 향한 경로

요약

핵심 포인트

댓글