From Token Lists to Graph Motifs: Weisfeiler-Lehman Analysis of Sparse
요약
본 논문은 희소 자동 인코더(SAE)의 특징을 분석하는 새로운 그래프 구조적 방법을 제안합니다. 기존 연구가 토큰 목록이나 가중치 벡터에 집중했던 것과 달리, 이 방법은 SAE 특징이 공유하는 고차원적인 동시 발생(co-occurrence) 구조를 그래프로 모델링합니다. 커스텀 WL 스타일의 그래프 커널을 사용하여 이 구조적 공간에서 유사성을 측정하고, 이를 통해 기존 방식으로는 포착하기 어려웠던 구문 패턴이나 코드 템플릿 같은 '휴리스틱 모티프 패밀리'를 성공적으로 복구했습니다.
핵심 포인트
- SAE 특징 분석을 위해 토큰 동시 발생 그래프(token co-occurrence graph) 구조적 표현을 도입했다.
- 커스텀 WL 스타일의 주파수 빈 그래프 커널(frequency-binned graph kernel)을 사용하여 구조적 유사성 측정 방법을 제시했다.
- 이 방법론은 GPT-2 Small과 같은 대규모 모델에서 기존 방식으로는 놓치기 쉬운 문장 부호 패턴, 언어 클러스터 등 '휴리스틱 모티프'를 성공적으로 복구할 수 있음을 입증했다.
- 토큰 빈도 기반 분석(token-histogram baseline)보다 보완적이며 지배적인 역할을 수행하며, 구조적 관계의 중요성을 강조한다.
Sparse autoencoders (SAEs) 는 기계적 해석 가능성 (mechanistic interpretability) 의 핵심이 되어, transformer activations 을 monosemantic features 로 분해합니다. 그러나 기존의 분석은 features 를 거의 독점적으로 top-activating token lists 나 decoder weight vectors 를 통해 특성화하며, features 가 공유하는 고차원 co-occurrence 구조는 거의 검토되지 않았습니다. 우리는 각 SAE feature 를 token co-occurrence graph 로 모델링하는 그래프 구조적 표현을 소개합니다: nodes 는 strong activations 에 가장 빈번하게 나타나는 tokens 이고, edges 는 local context windows 내에서 co-occur 하는 쌍을 연결합니다. A custom WL-style, frequency-binned graph kernel 은 이 구조적 공간에 대한 similarity measure 를 제공합니다. 이를 GPT-2 Small 에서 훈련된 대규모 SAE 의 features 에 적용하고 synthetic mixed-domain corpus 로 probe 한 proof of concept 으로, decoder cosine similarity 기반 clustering 으로 회복되지 않는 heuristic motif families (punctuation-heavy patterns, language and script clusters, 그리고 code-like templates) 를 recovery 합니다. token-histogram baseline 은 전체적인 purity 를 더 높게 달성하므로, graph view 의 기여도는 보완적이며 지배적이 아닙니다: token-frequency 와 decoder-weight views 만으로는 포착할 수 없는 structural relationships 를 표면화합니다. Cluster assignments 는 graph-construction hyperparameters 와 random seeds 를 넘어 안정적입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기