arXiv논문2026. 06. 29. 11:16

VASAE: 어휘 정렬 앵커링(Vocabulary-Aligned Anchoring)을 통한 SAE 사전 방향(Dictionary

요약

VASAE는 SAE 특징을 Transformer의 토큰 어휘와 직접 정렬하여 학습하는 새로운 방법론을 제안합니다. 재구성 품질을 유지하면서도 특징에 내재적 토큰 이름을 할당하여 모델 해석력을 높였습니다.

핵심 포인트

어휘 정렬 앵커링을 통해 SAE 특징과 토큰 임베딩 간의 연결성 강화
GPT-2-small의 초기 레이어에서 특징의 약 90%를 토큰과 정렬 성공
Llama-3.1-8B의 얕은 층 및 중간 층에서 강력한 어휘 정렬 확인
사후 해석(post hoc interpretation)을 보완하는 효율적인 방법론 제시

희소 오토인코더 (Sparse autoencoders, SAEs)는 Transformer 잔차 스트림 (residual streams)의 유용한 분해를 제공하지만, 학습된 특징 (features)들은 대개 Transformer의 토큰 어휘 (token vocabulary)와 직접 연결되기보다는 사후적으로 (post hoc) 명명됩니다. 우리는 어휘 정렬 앵커링 (vocabulary-aligned anchoring) 하에서 SAE 특징을 학습시키고, 각 특징에 해당 특징과 가장 가까운 임베딩을 가진 토큰 문자열인 내재적 토큰 이름 (intrinsic token name)을 할당하는 방법론인 어휘 정렬 희소 오토인코더 (Vocabulary-Aligned Sparse Autoencoder, VASAE)를 소개합니다. 표준 SAE와 비교하여 재구성 품질 (reconstruction quality)을 저하시키지 않으면서도, VASAE는 어휘와 정렬된 특징을 가진 사전 (dictionaries)을 생성합니다. 가장 가까운 토큰 정렬 점수 (nearest-token alignment score)에 0.8 컷오프 (cutoff)를 적용했을 때, GPT-2-small의 잔차 스트림 이후 (post-residual streams) 단계에서 학습된 사전들은 레이어 0--10에서 특징의 약 90%를 정렬시킵니다. Llama-3.1-8B의 경우, 대표적인 얕은 층(shallow) 및 중간 층(middle-layer) 사전들은 얕은 층에서 92.8%를 포함하여 강력하게 정렬된 특징들을 포함하고 있는 반면, 대표적인 최종 층(final-layer) 사전은 제한적인 정렬을 보여줍니다. 문장 수준의 평균 희소 코드 (sentence-level mean sparse code)를 뺀 후의 사례 연구(case studies)를 통해, 남아있는 많은 내재적 토큰 이름들이 인접한 입력 토큰들과 관련이 있음을 보여줍니다. 이러한 결과는 어휘 정렬 앵커링이 학습 과정에서 학습된 특징을 내재적 토큰 이름과 연결할 수 있음을 시사하며, 학습된 사전의 사후 해석 (post hoc interpretation)을 보완합니다.

AI 자동 생성 콘텐츠

원문 바로가기

VASAE: 어휘 정렬 앵커링(Vocabulary-Aligned Anchoring)을 통한 SAE 사전 방향(Dictionary

요약

핵심 포인트

댓글