확산 모델(Diffusion Models)의 언러닝(Unlearning)을 위한 희소 오토인코더(Sparse Autoencoders) 기반의

희소 오토인코더 (Sparse Autoencoders, SAEs)는 고립된 특징(features)이 제어 가능한 개입 지점(intervention points) 역할을 할 수 있다는 가정하에, 개념 수준의 조작을 위한 해석 가능한 도구로서 최근 제안되었습니다. 본 연구에서는 확산 모델 (diffusion models)의 객체 삭제(object erasure) 및 스티어링 (steering) 맥락에서 이 가정을 체계적으로 평가합니다. 우리는 SAEs가 확산 모델의 활성화 (activations) 내에서 의미론적 개념을 안정적으로 탐지하고 위치를 찾아내지만, 잠재 공간 (latent space)에서의 직접적인 개입은 빈번하게 분포 외 활성화 (out-of-distribution activations)를 유도하여 심각한 시각적 아티팩트 (visual artifacts)를 초래한다는 것을 보여줍니다. 탐지와 개입을 분리하기 위해, 우리는 SAE 활성화를 순수하게 의미론적 탐지기로 사용하여 대상 객체를 포함하는 이미지 영역을 식별하고, 해당 패치 임베딩 (patch embeddings)을 객체를 포함하지 않는 것으로 교체합니다. 이러한 탐지 기반 교체 방식은 확산 모델의 활성화 통계 (activation statistics)를 보존하며, 잠재 스티어링 (latent steering)보다 훨씬 더 깨끗한 삭제 결과를 생성합니다. 우리의 연구 결과는 확산 모델에서 개념 탐지와 개념 개입 사이의 근본적인 격차를 드러냅니다. 즉, 단일 의미적 (monosemantic) 또는 희소 특징 (sparse features)이 스티어링을 위한 제어 노브 (control knobs)로서 본질적으로 적합한 것은 아닙니다. 이러한 결과는 SAEs를 생성 모델을 분석하기 위한 강력한 해석 가능성 도구로 자리매김하게 하지만, 언러닝 (unlearning)과 같은 직접적인 조작에 사용할 때의 중요한 한계를 강조합니다.

Insights

확산 모델(Diffusion Models)의 언러닝(Unlearning)을 위한 희소 오토인코더(Sparse Autoencoders) 기반의

요약

핵심 포인트

댓글

무료로 공개된 AI 명저를 매번 찾아 열어보는 것은 힘들다.

대법원, 리사 쿡의 직장 보호를 통해 연준 독립성 지지—미국 부채도 위기에서 구제

Bernstein, Kalshi와 Polymarket이 인수 대상이 될 수 있다고 분석

BeyondArena: 표 형식 파운데이션 모델 (Tabular Foundation Models)은 실제로 범용적인가?

대법원, 리사 쿡의 직장 보호를 통해 연준 독립성 지지—미국 부채도 위기에서 구제

Bernstein, Kalshi와 Polymarket이 인수 대상이 될 수 있다고 분석

BeyondArena: 표 형식 파운데이션 모델 (Tabular Foundation Models)은 실제로 범용적인가?