Empty SPACE: 확산 모델의 개념 삭제를 위한 교차 어텐션 희소성
요약
본 논문은 텍스트-이미지 확산 모델에서 특정 개념을 효과적으로 삭제하기 위한 새로운 방법인 SPACE(Sparse cross-Attention 기반 개념 삭제)를 제안합니다. 기존의 폐쇄형 개념 삭제 방법들은 대규모 아키텍처에서 성능 저하가 발생하는 문제를 해결하고자 합니다. SPACE는 교차 어텐션 파라미터를 반복적으로 수정하며 희소성을 유도하고 목표 개념을 제거함으로써, 높은 삭제 효율성과 적대적 프롬프트에 대한 강건성 향상을 동시에 달성합니다.
핵심 포인트
- SPACE는 텍스트-이미지 확산 모델의 교차 어텐션 파라미터를 수정하여 특정 개념을 효과적으로 삭제하는 방법을 제시한다.
- 이 방법은 대규모 아키텍처(예: SDXL)에서도 높은 개념 삭제 효율성을 유지하며, 기존 밀집 기반 방법보다 우수하다.
- SPACE는 희소성(sparsity)을 유도하여 메모리 효율성을 크게 개선시키며, 교차 어텐션 파라미터 저장 공간을 70%까지 줄일 수 있다.
- 제안된 방식은 개념 삭제 효과가 뛰어나고 적대적 프롬프트에 대한 강건성이 높다는 것을 실험적으로 입증했다.
텍스트-이미지 확산 모델에서 특정 개념을 삭제하는 것은 저작권이 있는 콘텐츠나 노골적인 콘텐츠가 생성되는 것을 방지하는 데 필수적입니다. 폐쇄형(closed-form) 개념 삭제 방법은 역전파 기반 기술의 빠른 대안을 제공하지만, Stable Diffusion 1.5와 같은 작은 모델에서 Stable Diffusion XL과 같은 더 큰 모델로 확장될 때 효과가 떨어집니다. 이러한 대규모 아키텍처에서도 삭제 효과를 유지하기 위해, 우리는 SParse cross-Attention 기반 개념 삭제(SPACE)를 제안합니다. SPACE는 폐쇄형 업데이트를 통해 모델의 교차 어텐션 파라미터를 반복적으로 수정하며, 이 과정에서 희소성(sparsity)을 유도하고 목표 개념을 삭제하는 작업을 동시에 수행합니다. SPACE는 개념 매핑을 더 낮은 차원의 부분 공간에 집중시킴으로써, 밀집 기반(dense baselines) 방법보다 우수한 삭제 효율성을 달성합니다. 광범위한 실험 결과는 삭제 효과의 개선과 적대적 프롬프트(adversarial prompts)에 대한 강건성(robustness) 향상을 보여줍니다. 나아가, SPACE는 80%-90%의 교차 어텐션 희소성을 달성하여 수정된 파라미터를 저장하는 데 필요한 저장 공간을 70% 줄임으로써 메모리 효율성을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기