확산 모델(Diffusion Models)의 언러닝(Unlearning)을 위한 희소 오토인코더(Sparse Autoencoders) 기반의
요약
희소 오토인코더(SAE)를 활용하여 확산 모델 내의 특정 개념을 탐지하고 삭제하는 연구를 다룹니다. SAE가 개념 탐지에는 효과적이지만, 잠재 공간에서의 직접적인 개입은 시각적 아티팩트를 유발한다는 한계를 밝히고 탐지 기반의 패치 교체 방식을 제안합니다.
핵심 포인트
- SAE는 확산 모델의 의미론적 개념을 안정적으로 탐지함
- 잠재 공간에서의 직접적인 스티어링은 시각적 아티팩트 유발
- 탐지 기반의 패치 임베딩 교체가 더 깨끗한 삭제 결과 생성
- 개념 탐지와 직접적인 제어(개입) 사이의 근본적 격차 확인
희소 오토인코더 (Sparse Autoencoders, SAEs)는 고립된 특징(features)이 제어 가능한 개입 지점(intervention points) 역할을 할 수 있다는 가정하에, 개념 수준의 조작을 위한 해석 가능한 도구로서 최근 제안되었습니다. 본 연구에서는 확산 모델 (diffusion models)의 객체 삭제(object erasure) 및 스티어링 (steering) 맥락에서 이 가정을 체계적으로 평가합니다. 우리는 SAEs가 확산 모델의 활성화 (activations) 내에서 의미론적 개념을 안정적으로 탐지하고 위치를 찾아내지만, 잠재 공간 (latent space)에서의 직접적인 개입은 빈번하게 분포 외 활성화 (out-of-distribution activations)를 유도하여 심각한 시각적 아티팩트 (visual artifacts)를 초래한다는 것을 보여줍니다. 탐지와 개입을 분리하기 위해, 우리는 SAE 활성화를 순수하게 의미론적 탐지기로 사용하여 대상 객체를 포함하는 이미지 영역을 식별하고, 해당 패치 임베딩 (patch embeddings)을 객체를 포함하지 않는 것으로 교체합니다. 이러한 탐지 기반 교체 방식은 확산 모델의 활성화 통계 (activation statistics)를 보존하며, 잠재 스티어링 (latent steering)보다 훨씬 더 깨끗한 삭제 결과를 생성합니다. 우리의 연구 결과는 확산 모델에서 개념 탐지와 개념 개입 사이의 근본적인 격차를 드러냅니다. 즉, 단일 의미적 (monosemantic) 또는 희소 특징 (sparse features)이 스티어링을 위한 제어 노브 (control knobs)로서 본질적으로 적합한 것은 아닙니다. 이러한 결과는 SAEs를 생성 모델을 분석하기 위한 강력한 해석 가능성 도구로 자리매김하게 하지만, 언러닝 (unlearning)과 같은 직접적인 조작에 사용할 때의 중요한 한계를 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기