arXiv논문2026. 05. 08. 13:02

From Token Lists to Graph Motifs: Weisfeiler-Lehman Analysis of Sparse

요약

본 논문은 희소 자동 인코더(SAE)의 특징을 분석하는 새로운 그래프 구조적 방법을 제안합니다. 기존 연구가 토큰 목록이나 가중치 벡터에 집중했던 것과 달리, 이 방법은 SAE 특징이 공유하는 고차원적인 동시 발생(co-occurrence) 구조를 그래프로 모델링합니다. 커스텀 WL 스타일의 그래프 커널을 사용하여 이 구조적 공간에서 유사성을 측정하고, 이를 통해 기존 방식으로는 포착하기 어려웠던 구문 패턴이나 코드 템플릿 같은 '휴리스틱 모티프 패밀리'를 성공적으로 복구했습니다.

핵심 포인트

SAE 특징 분석을 위해 토큰 동시 발생 그래프(token co-occurrence graph) 구조적 표현을 도입했다.
커스텀 WL 스타일의 주파수 빈 그래프 커널(frequency-binned graph kernel)을 사용하여 구조적 유사성 측정 방법을 제시했다.
이 방법론은 GPT-2 Small과 같은 대규모 모델에서 기존 방식으로는 놓치기 쉬운 문장 부호 패턴, 언어 클러스터 등 '휴리스틱 모티프'를 성공적으로 복구할 수 있음을 입증했다.
토큰 빈도 기반 분석(token-histogram baseline)보다 보완적이며 지배적인 역할을 수행하며, 구조적 관계의 중요성을 강조한다.

Sparse autoencoders (SAEs) 는 기계적 해석 가능성 (mechanistic interpretability) 의 핵심이 되어, transformer activations 을 monosemantic features 로 분해합니다. 그러나 기존의 분석은 features 를 거의 독점적으로 top-activating token lists 나 decoder weight vectors 를 통해 특성화하며, features 가 공유하는 고차원 co-occurrence 구조는 거의 검토되지 않았습니다. 우리는 각 SAE feature 를 token co-occurrence graph 로 모델링하는 그래프 구조적 표현을 소개합니다: nodes 는 strong activations 에 가장 빈번하게 나타나는 tokens 이고, edges 는 local context windows 내에서 co-occur 하는 쌍을 연결합니다. A custom WL-style, frequency-binned graph kernel 은 이 구조적 공간에 대한 similarity measure 를 제공합니다. 이를 GPT-2 Small 에서 훈련된 대규모 SAE 의 features 에 적용하고 synthetic mixed-domain corpus 로 probe 한 proof of concept 으로, decoder cosine similarity 기반 clustering 으로 회복되지 않는 heuristic motif families (punctuation-heavy patterns, language and script clusters, 그리고 code-like templates) 를 recovery 합니다. token-histogram baseline 은 전체적인 purity 를 더 높게 달성하므로, graph view 의 기여도는 보완적이며 지배적이 아닙니다: token-frequency 와 decoder-weight views 만으로는 포착할 수 없는 structural relationships 를 표면화합니다. Cluster assignments 는 graph-construction hyperparameters 와 random seeds 를 넘어 안정적입니다.

AI 자동 생성 콘텐츠

원문 바로가기

From Token Lists to Graph Motifs: Weisfeiler-Lehman Analysis of Sparse

요약

핵심 포인트

댓글