방어 수단으로서의 더미 백도어: 생성형 LLM을 위한 공유 내부 메커니즘을 통한 미지의 백도어 제거
요약
본 연구는 생성형 LLM의 미지 백도어를 제거하기 위해 '더미 백도어'를 활용하는 새로운 방어 메커니즘을 제안합니다. 서로 다른 백도어가 공유하는 내부 활성화 패턴을 이용해, 의도적으로 삽입된 더미 백도어를 미세 조정함으로써 미지의 공격까지 효과적으로 완화합니다.
핵심 포인트
- 서로 다른 백도어 간의 공유된 내부 메커니즘 발견
- 더미 백도어를 활용한 미세 조정 기반의 방어 기법 제안
- 모델의 유용성을 유지하며 미지 백도어 공격 성공률 감소
- 기존 방어 방법 대비 백도어 제거 및 유용성 보존 성능 우수
백도어 공격 (Backdoor attacks)은 모델이 깨끗한 입력에는 정상적으로 동작하면서도 숨겨진 트리거 (trigger)가 존재할 때 공격자가 지정한 응답을 생성하게 함으로써, 대규모 언어 모델 (LLMs)의 안전성과 신뢰성에 심각한 위협을 가합니다. 방어자가 백도어 공격 유형이나 백도어 학습을 통해 형성된 내부 메커니즘 (internal mechanisms)을 알지 못할 경우, 이러한 미지의 백도어를 제거하는 것은 특히 어렵습니다. 본 연구에서는 서로 다른 백도어 간의 공유된 내부 메커니즘에 기반한 단순하지만 효과적인 백도어 제거 방법을 제안합니다. 먼저, 우리는 동일한 작업 (공격 목표)을 가진 서로 다른 백도어들이 내부 활성화 (internal activations)에서 트리거에 의해 활성화되는 유사한 변화를 유도한다는 것을 보여줍니다. 이러한 관찰에 착안하여, 우리의 방법은 알려진 트리거를 가진 백도어(\emph{dummy backdoor})를 의도적으로 삽입한 다음, 깨끗한 응답과 쌍을 이룬 더미 트리거 입력에 대한 추가 미세 조정 (fine-tuning)을 통해 이를 제거합니다. 더미 백도어와 미지의 백도어는 공유된 내부 메커니즘에 의존할 수 있으므로, 더미 백도어를 제거하면 미지의 백도어의 영향도 함께 감소합니다. 우리는 여러 모델 제품군에 걸쳐 세 가지 백도어 공격 유형에 대해 우리의 방법을 평가합니다. 실험 결과, 우리의 방법은 모델의 유용성 (utility)을 보존하면서 미지의 백도어에 대한 공격 성공률 (attack success rate)을 실질적으로 감소시켰으며, 백도어 제거 효과와 유용성 보존 측면 모두에서 기존의 대표적인 방어 방법들을 능가했습니다. 이러한 발견은 방어자가 제어 가능한 백도어가 생성형 LLM에서 미지의 백도어를 완화하기 위한 유용한 프록시 (proxy) 역할을 할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기