arXiv논문2026. 06. 26. 12:07

엄격한 예산(Hard Budget)을 넘어: 더 해석 가능한 Top-k 희소 오토인코더(Sparse Autoencoders)를 위한 희소성

요약

Top-k 희소 오토인코더(SAE)의 한계를 극복하기 위해 새로운 희소성 정규화 기법을 제안합니다. 연구 결과, 구조적 희소성과 소프트 정규화가 결합될 때 재구성 품질 저하 없이 모델의 단의성(monosemanticity)을 향상시킬 수 있음을 입증했습니다.

핵심 포인트

Top-k SAE의 고정된 예산 및 과적합 문제 해결을 위한 정규화 기법 제안
off-support 유닛에 대한 $\ell_1$ 패널티 및 스케일 불변 $\ell_1/\ell_2$ 비율 패널티 도입
재구성 품질 유지하며 단의성(monosemanticity) 일관되게 향상
구조적 희소성과 소프트 정규화의 상호 보완적 관계 확인

희소 오토인코더 (Sparse autoencoders, SAEs)는 비전 파운데이션 모델 (vision foundation models)의 표현을 해석하는 선도적인 도구가 되었으며, 다의적 (polysemantic) 활성화 값을 더 크고 희소하며 단의적 (monosemantic)인 특징 세트로 분해합니다. 현재 표준 변형인 Top-$k$ SAE는 활성화 함수를 통해 구조적으로 희소성을 강제하며, 입력당 가장 활성화된 $k$개의 잠재 변수 (latents)만을 유지합니다. 이는 초기 SAE에서 사용되었던 $\ell_1$ 패널티와 그 알려진 단점들을 피하기 위해 정밀하게 설계되었기 때문에, 입력 복잡도와 관계없이 고정된 예산 $k$ 및 $k$의 훈련 값에 과적합되는 경향과 같은 자체적인 한계가 있음에도 불구하고 명시적인 희소성 정규화 기법 (sparsity regularizer)과 결합되지 않았습니다. 본 연구에서는 Top-$k$ 구조와 호환되는 두 가지 희소성 정규화 기법을 소개하며, 두 기법 모두 Top-$k$ 선택 전의 활성화 값에 작용합니다: 선택되지 않은 (off-support) 유닛에 대한 $\ell_1$ 패널티, 그리고 코드를 더 적은 유효 유닛으로 집중시키는 스케일 불변 (scale-invariant) $\ell_1/\ell_2$ 비율 패널티입니다. 두 패널티 모두 배치 내에서 Top-$k$ 연산자에 의해 최소 한 번 이상 선택된 배치 활성 유닛 (batch-active units)에만 적용됩니다. 두 개의 데이터셋, 세 개의 비전 파운데이션 모델, 그리고 다양한 $k$ 범위에 걸쳐 실험한 결과, 두 정규화 기법 모두 재구성 품질 (reconstruction quality)의 저하 없이 단의성 (monosemanticity)을 일관되게 향상시켰습니다. $\ell_1/\ell_2$ 패널티는 정보를 더 적은 잠재 변수로 더욱 집중시켜, 추론 시 $k$의 선택에 대해 재구성을 더 견고하게 만들고 작은 예산의 선형 프로빙 (linear probing) 성능을 개선합니다. 우리의 핵심 발견은 엄격한 구조적 희소성 (hard architectural sparsity)과 소프트 희소성 정규화 (soft sparsity regularization)가 상호 배타적인 것이 아니라 상호 보완적이라는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

엄격한 예산(Hard Budget)을 넘어: 더 해석 가능한 Top-k 희소 오토인코더(Sparse Autoencoders)를 위한 희소성

요약

핵심 포인트

댓글