arXiv논문2026. 05. 20. 11:55

히드라를 깨우다: Text-to-Image Diffusion Models에서의 안정적인 다중 개념 백도어 주입 (Multi-Concept

요약

텍스트-이미지 확산 모델의 재사용 및 미세 조정 과정에서 발생하는 다중 개념 백도어 간의 의미론적 충돌과 생성 품질 저하 문제를 다룹니다. 본 연구는 Hydra라는 통합 프레임워크를 제안하여, 기존 백도어의 안정성을 해치지 않으면서도 새로운 개념을 정교하게 주입할 수 있는 방법을 제시합니다.

핵심 포인트

재사용되는 체크포인트 환경에서 여러 백도어가 축적될 경우 개념 간 얽힘과 생성 품질 저하가 발생함
Hydra는 텍스트 인코더 공간에서 진화적 트리거 탐색을 통해 타겟 개념과 일치하면서도 간섭이 적은 트리거를 식별함
다중 작업 미세 조정과 트리거-클린 정규화를 결합하여 학습 안정성을 높임
실험 결과, 500개의 개념 쌍에 대해 약 95%의 높은 공격 성공률(ASR)과 우수한 이미지 품질을 동시에 유지함

Text-to-image diffusion models (텍스트-이미지 확산 모델)은 오픈 소스 재사용과 반복적인 다운스트림 미세 조정 (fine-tuning)을 통해 점점 더 많이 개발되고 있으며, 이 과정에서 재사용된 체크포인트 (checkpoints)는 검증하기 어렵기 때문에 숨겨진 백도어 (backdoor) 동작에 더 취약합니다. 이러한 생태계에서는 단일 사전 학습된 모델이 여러 독립적인 당사자에 의해 순차적으로 적응 및 재배포될 수 있으며, 이로 인해 동일한 모델에 여러 개념별 트리거-타겟 (trigger-target) 연관 관계가 축적될 수 있습니다. 이러한 연관 관계가 공존할 때, 공유된 표현 공간 (representation space)에서 의미론적 충돌 (semantic conflicts)이 증폭되어 개념 간 얽힘 (cross-concept entanglement)과 생성 품질 저하를 초래할 수 있습니다. 특히, 이러한 축적은 공격을 강화하는 대신 이전에 주입된 동작을 불안정하게 만들고 공격 신뢰도를 떨어뜨릴 수 있습니다. 본 연구에서는 이러한 간섭에 취약한 설정 하에서의 백도어 공격을 체계적으로 조사하고, 누적적이고 분산된 재사용 환경에서 견고하고 제어 가능한 다중 개념 백도어 주입을 위한 통합 프레임워크인 Hydra를 제안합니다. 우리의 핵심 통찰은 대규모 다중 개념 설정 하에서 안정적인 백도어 주입을 위해서는 최적화 과정 동안 교차 작업 상호작용 (cross-task interactions)을 조정하는 동시에 트리거 의미론 (trigger semantics)을 명시적으로 제약해야 한다는 것입니다. 구체적으로, Hydra는 텍스트 인코더 (text encoder) 공간에서 진화적 트리거 탐색 (evolutionary trigger search)을 수행하여, 다른 주입된 개념들에 대해서는 안정성을 유지하면서도 타겟 개념과 의미론적으로 일치하는 트리거를 식별합니다. 나아가, Hydra는 밀집된 다중 개념 주입 환경에서의 학습 안정성을 향상시키기 위해 다중 작업 미세 조정 (multi-task fine-tuning)과 트리거-클린 정규화 (trigger-clean regularization)를 결합합니다. 엄격한 다중 개념 설정 하에서 여러 diffusion 백본 (backbones)을 대상으로 진행한 광범위한 실험 결과, Hydra는 깨끗한 생성 충실도 (clean generation fidelity)와 이미지 품질을 보존하면서도 효과적인 백도어 활성화를 유지함을 보여주었습니다. 예를 들어, 8명의 공격자와 500개의 개념 쌍에 대해 Hydra는 약 95%의 ASR (공격 성공률)과 강력한 클린 생성을 유지합니다.

AI 자동 생성 콘텐츠

원문 바로가기

히드라를 깨우다: Text-to-Image Diffusion Models에서의 안정적인 다중 개념 백도어 주입 (Multi-Concept

요약

핵심 포인트

댓글