희소 오토인코더 (SAE) 특징 매칭 및 회로 압축을 위한 의미론적 최적 운송 (Semantic Optimal Transport)
요약
SAE 특징 매칭과 회로 압축 문제를 해결하기 위해 의미론적 최적 운송(Semantic Optimal Transport) 프레임워크를 제안합니다. 특징을 단일 벡터가 아닌 활성화 가중 분포로 정의하여 레이어 간 의미론적 거리를 정밀하게 측정합니다.
핵심 포인트
- SAE 특징을 활성화 가중 분포로 표현하여 분석 정밀도 향상
- Wasserstein 거리를 활용한 레이어 간 특징 매칭 통합 지표 제공
- 활성화 재스케일링 및 섭동에 대해 안정적인 성능 증명
- 거대한 특징 회로를 해석 가능한 슈퍼노드로 자동 압축
희소 오토인코더 (Sparse Autoencoders, SAEs)는 언어 모델 (Language Models)을 해석하기 위한 핵심적인 도구가 되었습니다. 그러나 확장이 여전히 어려운 두 가지 주요 SAE 분석은 (1) 다층 레이어에 걸쳐 의미론적으로 유사한 특징 (Features)을 매칭하는 것과 (2) 거대한 특징 회로 (Feature Circuits)를 해석 가능한 슈퍼노드 (Supernodes)로 압축하는 것입니다. 비록 이들이 별개의 문제로 다루어져 왔으나, 우리는 이 두 가지 모두 더 근본적인 도전 과제의 사례임을 보여줍니다. 우리는 이 과제를 서로 다른 활성화 매니폴드 (Activation Manifolds) 상에 존재하는 SAE 특징들 사이의 의미론적 거리 (Semantic Distances)를 추정하는 것으로 정의합니다. 우리는 이 문제를 해결하기 위한 분포 프레임워크 (Distributional Framework)를 도입하며, 여기서 각 특징은 기존 문헌처럼 단일 디코더 벡터 (Decoder Vector)로 표현되는 것이 아니라, 해당 특징을 나타내는 은닉 상태 (Hidden States)에 대한 활성화 가중 분포 (Activation-weighted Distribution)로 표현됩니다. 이러한 분포들을 공유된 참조 공간 (Shared Reference Space)으로 투영하고 Wasserstein 거리 (Wasserstein Distance)를 통해 비교함으로써, 우리의 방법은 레이어 간 특징 비교를 위한 통합된 의미론적 지표 (Semantic Metric)를 제공합니다. 우리는 우리의 표현 방식이 활성화 재스케일링 (Activation Rescaling)에 대해 불변하며, 섭동 (Perturbations) 하에서도 안정적이고, 유한 샘플 마진 조건 (Finite-sample Margin Conditions) 하에서 실제 매칭을 복구함을 증명합니다. 실험적으로 우리의 방법은 디코더 벡터 기반 및 LLM 기반 베이스라인 (Baselines)보다 뛰어난 성능을 보이며, 관련 특징들 사이의 미묘한 기능적 차이를 포착합니다. 특히, 우리의 방법은 거대한 특징 회로를 해석 가능한 슈퍼노드로 자동 압축합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기