효과적인 기계론적 해석 가능성을 위한 부분공간 인식 희소 오토인코더 (Subspace-Aware Sparse Autoencoders)
요약
기존 희소 오토인코더(SAE)가 다차원 특징을 단일 방향으로 처리하며 발생하는 특징 분할 문제를 분석하고, 이를 해결하기 위한 부분공간 인식 SAE(SASA)를 제안합니다. SASA는 디코더 부분공간과 그룹 게이팅을 활용해 특징의 기하학적 구조를 보존하고 해석 가능성을 높입니다.
핵심 포인트
- 기존 SAE는 다차원 특징을 1차원으로 간주하여 특징 분할 현상을 유발함
- SASA는 디코더 부분공간과 핵 규제화를 통해 다차원 구조를 효과적으로 학습
- 특징 분할을 줄여 단일 의미성(Monosemanticity)과 해석 가능성 향상
- 표준 SAE 대비 절반의 토큰 예산으로도 대등하거나 우수한 성능 달성
희소 오토인코더 (Sparse Autoencoders, SAEs)는 대규모 언어 모델 (Large Language Models, LLMs)의 기계론적 해석 가능성 (Mechanistic Interpretability)을 위해 널리 사용되지만, 이들의 공식은 각 잠재 특징 (Latent Feature)에 단일 디코더 방향을 할당하며, 이는 특징이 1차원이라고 암묵적으로 가정합니다. 본 연구에서는 이러한 가정이 모델 특징의 다차원 구조와 일치하지 않으며, 두 가지 뚜렷한 메커니즘을 통해 특징 분할 (Feature Splitting)을 유발한다는 것을 증명합니다. 기하학적으로, 고유 차원 (Intrinsic Dimension) $d_i \ge 2$인 특징을 단일 방향 디코더를 사용하여 오차 $\varepsilon$ 내로 재구성하려면 $d_i$에 대해 지수적으로 증가하는 수의 원자 (Atoms)가 강제됩니다. 엔드 투 엔드 최적화 (End-to-end Optimization) 관점에서는 이러한 분할이 단순히 가능한 수준을 넘어 능동적으로 선호됩니다. 우리는 실제 $d_i$차원 기저 (Basis)로부터 $\ell_1$ 정규화된 SAE 목적 함수의 엄격하게 더 낮은 리스크로 이어지는 연속적인 경로가 존재함을 증명하며, 이 하강 방향은 학습된 사전 (Dictionary)을 해당 지수적 영역으로 몰아넣습니다. 따라서 단일한 일관된 특징이 많은 근사적 공선성 (Near-collinear)을 가진 잠재 변수들로 파편화되어, 가짜 다중성 (Spurious Multiplicity)을 생성하고 고유한 기하학적 구조를 가리게 됩니다. 이에 착안하여, 우리는 단일 벡터 디코더를 학습된 디코더 부분공간 (Decoder Subspaces)으로 대체하고, Top-$s$ 그룹 게이팅 (Group Gating)을 통해 블록 희소성 (Block Sparsity)을 강제하며, 핵 규제화 (Nuclear-norm Regularizer)를 통해 각 그룹의 유효 계수 (Effective Rank)를 조정하는 부분공간 인식 희소 오토인코더 (Subspace-Aware Sparse Autoencoders, SASA)를 소개합니다. 우리는 블록 크기가 $r \ge d_i$를 만족하면, 단일 그룹이 전체 특징 슬라이스를 표현할 수 있을 뿐만 아니라 SASA 목적 함수의 전역 최적해 (Global Minimizer)가 됨을 보여줍니다. 이러한 통합은 샘플 복잡도 (Sample Complexity)를 $d_i$에 대해 지수적이 아닌 다항식 수준으로 낮추어 주며, 이는 모든 학습 활성화 (Activation)가 LLM의 순전파 (Forward Pass) 비용을 발생시킨다는 점을 고려할 때 결정적인 이점입니다. 실험적으로 GPT-2 및 Mistral-7B에서 SASA는 특징 분할 및 흡수 (Absorption)를 줄이고, 단일 의미성 (Monosemanticity)과 해석 가능성을 향상시키며, 약 절반의 토큰 예산만으로 학습하면서도 표준 SAE와 대등하거나 이를 능가하는 성능을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기