희소 오토인코더(SAE)에서의 활성화 이상치(Activation Outliers)와 특징 사멸(Feature Death) 간의 관계에 대하여
요약
희소 오토인코더(SAE)에서 발생하는 '특징 사멸(feature death)' 현상이 활성화 이상치로 인해 발생함을 규명한 연구입니다. 활성화 평균과 정렬 방식에 따라 특정 특징이 영구적으로 비활성화되는 메커니즘을 분석하고, 평균 중심화(Mean-centering)를 통한 해결책을 제시합니다.
핵심 포인트
- 특징 사멸은 활성화 이상치가 사전 활성화 값을 이동시켜 발생함
- 이상치 심각도(γ)를 통해 모델별 초기 사멸률 예측 가능
- GPT-2와 AlphaFold3 간의 극명한 사멸률 차이 확인
- 평균 중심화(Mean-centering)로 이상치로 인한 사멸 문제 해결 가능
희소 오토인코더 (Sparse Autoencoders, SAEs)는 신경망 활성화 (neural network activations)를 해석 가능한 특징 (interpretable features)으로 분해하지만, 학습된 많은 특징이 전혀 활성화되지 않는 문제가 발생합니다. 이는 사전 (dictionary) 용량을 낭비하고 중첩 (superposition)을 재도입할 수 있는 '특징 사멸 (feature death)'이라 불리는 문제입니다. 사멸률은 모델에 따라 극적으로 다르게 나타납니다. 동일한 설정에서 GPT-2는 0에 가까운 반면, AlphaFold3는 70%가 넘습니다. 본 연구에서는 차원 수준의 활성화 이상치 (dimension-level activation outliers, 토큰별 변동에 비해 평균 크기가 큰 차원)가 이러한 현상을 유발한다는 것을 발견했습니다. 이는 초기화 단계에서 각 특징이 활성화 평균 (activation mean)과 정렬되는 방식에 따라 사전 활성화 (pre-activations) 값을 이동시키기 때문입니다. 평균과 반대 방향으로 정렬된 특징들은 영구적으로 음수인 사전 활성화 값을 받게 되어 결코 발화 (fire)하지 않습니다. 우리는 이상치 심각도 (outlier severity)를 $γ= |μ|/|σ|$로 공식화하였으며, 이는 언어, 시각, 단백질 및 유전체 모델을 아우르는 454개의 모델-레이어 조합에서 초기 사멸률을 예측합니다 (dead-by-TopK에 대해 Spearman $ρ= 0.89$, dead-by-ReLU에 대해 $0.82$). 사멸된 특징이 학습 중에 회복될 수도 있지만, 회복을 위해서는 SAE 편향 (bias)이 활성화 평균을 학습해야 하며, $γ$가 높을 경우 이 과정은 매우 느립니다. 평균 중심화 (Mean-centering, 활성화 평균을 빼는 작업)는 이 문제를 우회하며 테스트된 모든 모델에서 이상치로 인한 사멸을 제거합니다. 이는 해당 메커니즘을 확인시켜 주며, 이러한 전처리 단계가 언제, 왜 필요한지에 대한 원칙적인 근거를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기