C$^{2}$R: 교차 샘플 일관성 정규화 (Cross-sample Consistency Regularization)를 통한 희소 오토인코더
요약
희소 오토인코더(SAE)의 특징 분할 및 흡수 문제를 해결하기 위한 C²R 정규화 기법을 제안합니다. 교차 샘플 일관성을 통해 잠재 변수의 신뢰성을 높이고 모델의 해석 가능성을 향상시킵니다.
핵심 포인트
- SAE의 고질적인 문제인 특징 분할 및 흡수 현상 분석
- C²R을 통한 유사 잠재 변수의 공동 활성화 페널티 부여
- 재구성 충실도를 유지하며 잠재 변수의 해석 가능성 개선
- 배치 전체에서 일관된 의미론적 특징 표현 유도
희소 오토인코더 (Sparse Autoencoders, SAEs)는 활성화 (activations)를 희소하고 인간이 이해할 수 있는 특징 (features)으로 분해함으로써 대규모 언어 모델 (large language models)을 해석하는 데 널리 사용되지만, 대규모 사전 (dictionaries)으로 확장할 때 근본적인 문제에 직면하게 됩니다. 체계적인 연구에 따르면, 일관된 개념을 비원자적 잠재 변수 (non-atomic latents)로 파편화하는 만연한 특징 분할 (feature splitting)과 일반적인 특징에 임의의 예외를 생성하는 광범위한 특징 흡수 (feature absorption)가 나타나며, 이는 잠재 변수의 신뢰성을 심각하게 저해합니다. 이러한 문제는 샘플 간의 일관되지 않은 잠재 변수 할당에서 기인합니다. 즉, 교차 샘플 제약 조건 (cross-sample constraints)이 없으면 샘플별 최적화 (per-sample optimization) 과정에서 하나의 근본적인 개념이 여러 개의 중복되거나 간섭하는 잠재 변수들에 일관되지 않게 분산될 수 있습니다. 이를 해결하기 위해, 우리는 C$^2$R ( ext{\underline{\textbf{C}}}ross-sample $ ext{\underline{\textbf{C}}}$onsistency $ ext{\underline{\textbf{R}}}$egularization)을 소개합니다. C$^2$R은 방향성이 유사한 잠재 변수들의 공동 활성화 (co-activation)를 페널티화함으로써, 각 의미론적 특징 (semantic feature)이 배치 (batch) 전체에서 통일된 잠재 변수에 의해 일관되게 표현되도록 명시적으로 장려합니다. 종합적인 평가를 통해 C$^2$R이 재구성 충실도 (reconstruction fidelity)를 유지하면서도 분할과 흡수를 효과적으로 완화함을 입증하였으며, 이는 모델 성능을 저하시키지 않으면서 잠재 변수의 해석 가능성 (interpretability)을 향상시키는 원칙적인 솔루션을 제공합니다. 소스 코드는 https://github.com/hr-jin/Cross-sample-Consistency-Regularization 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기