Diffusion Unlearning에서의 공존하는 연관 유지 개념 (Co-occurring associated retained
요약
확산 모델의 언러닝 과정에서 유해 개념과 함께 삭제되는 무해한 공존 개념(CARE) 문제를 해결하기 위한 연구입니다. CARE 점수와 이를 보호하는 ReCARE 프레임워크를 제안하여 대상 개념만 정밀하게 삭제하면서 모델의 유용성을 유지합니다.
핵심 포인트
- 언러닝 시 무해한 공존 개념(CARE)이 함께 삭제되는 부작용 정의
- 공존 개념의 보존 정도를 측정하는 CARE 점수 도입
- CARE-set을 활용해 대상 개념만 선택적으로 삭제하는 ReCARE 프레임워크 제안
- 다양한 실험을 통해 개념 삭제와 유용성 사이의 최적의 균형 입증
Unlearning (언러닝)은 확산 모델 (diffusion models)에서 유해한 콘텐츠 생성을 완화하기 위한 핵심 기술로 부상했습니다. 그러나 기존 방법들은 종종 대상 개념뿐만 아니라 무해하게 공존하는 개념들도 함께 제거하곤 합니다. 그림 1(Fig.1)에서 설명된 바와 같이, 누드 (nudity)를 언러닝하면 의도치 않게 사람 (person) 개념을 억제하여 모델이 사람이 포함된 이미지를 생성하지 못하게 만들 수 있습니다. 우리는 반드시 보존되어야 하는, 바람직하지 않게 억제된 이러한 공존 개념들을 CARE (Co-occurring Associated REtained concepts)라고 정의합니다. 그런 다음, 언러닝 작업 전반에 걸쳐 이들의 보존을 직접적으로 정량화하는 일반적인 지표인 CARE 점수 (CARE score)를 도입합니다. 이러한 토대 위에서, 우리는 대상 개념만을 삭제하면서 CARE를 명시적으로 보호하는 프레임워크인 ReCARE (Robust erasure for CARE)를 제안합니다. ReCARE는 대상 이미지에서 추출된 무해한 공존 토큰들의 선별된 어휘 집합인 CARE-set을 자동으로 구축하며, 안정적인 언러닝을 위해 학습 과정에서 이 어휘 집합을 활용합니다. 다양한 대상 개념 (Nudity, Van Gogh style, Tench object)에 대한 광범위한 실험을 통해, ReCARE가 강력한 개념 삭제, 전반적인 유용성, 그리고 CARE 보존 사이의 균형 측면에서 전반적으로 최첨단 (state-of-the-art) 성능을 달성함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기