VASAE: 어휘 정렬 앵커링(Vocabulary-Aligned Anchoring)을 통한 SAE 사전 방향(Dictionary
요약
VASAE는 SAE 특징을 Transformer의 토큰 어휘와 직접 정렬하여 학습하는 새로운 방법론을 제안합니다. 재구성 품질을 유지하면서도 특징에 내재적 토큰 이름을 할당하여 모델 해석력을 높였습니다.
핵심 포인트
- 어휘 정렬 앵커링을 통해 SAE 특징과 토큰 임베딩 간의 연결성 강화
- GPT-2-small의 초기 레이어에서 특징의 약 90%를 토큰과 정렬 성공
- Llama-3.1-8B의 얕은 층 및 중간 층에서 강력한 어휘 정렬 확인
- 사후 해석(post hoc interpretation)을 보완하는 효율적인 방법론 제시
희소 오토인코더 (Sparse autoencoders, SAEs)는 Transformer 잔차 스트림 (residual streams)의 유용한 분해를 제공하지만, 학습된 특징 (features)들은 대개 Transformer의 토큰 어휘 (token vocabulary)와 직접 연결되기보다는 사후적으로 (post hoc) 명명됩니다. 우리는 어휘 정렬 앵커링 (vocabulary-aligned anchoring) 하에서 SAE 특징을 학습시키고, 각 특징에 해당 특징과 가장 가까운 임베딩을 가진 토큰 문자열인 내재적 토큰 이름 (intrinsic token name)을 할당하는 방법론인 어휘 정렬 희소 오토인코더 (Vocabulary-Aligned Sparse Autoencoder, VASAE)를 소개합니다. 표준 SAE와 비교하여 재구성 품질 (reconstruction quality)을 저하시키지 않으면서도, VASAE는 어휘와 정렬된 특징을 가진 사전 (dictionaries)을 생성합니다. 가장 가까운 토큰 정렬 점수 (nearest-token alignment score)에 0.8 컷오프 (cutoff)를 적용했을 때, GPT-2-small의 잔차 스트림 이후 (post-residual streams) 단계에서 학습된 사전들은 레이어 0--10에서 특징의 약 90%를 정렬시킵니다. Llama-3.1-8B의 경우, 대표적인 얕은 층(shallow) 및 중간 층(middle-layer) 사전들은 얕은 층에서 92.8%를 포함하여 강력하게 정렬된 특징들을 포함하고 있는 반면, 대표적인 최종 층(final-layer) 사전은 제한적인 정렬을 보여줍니다. 문장 수준의 평균 희소 코드 (sentence-level mean sparse code)를 뺀 후의 사례 연구(case studies)를 통해, 남아있는 많은 내재적 토큰 이름들이 인접한 입력 토큰들과 관련이 있음을 보여줍니다. 이러한 결과는 어휘 정렬 앵커링이 학습 과정에서 학습된 특징을 내재적 토큰 이름과 연결할 수 있음을 시사하며, 학습된 사전의 사후 해석 (post hoc interpretation)을 보완합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기