arXiv논문2026. 05. 08. 16:58

SoftSAE: Dynamic Top-K Selection for Adaptive Sparse Autoencoders

요약

SoftSAE는 Large Language Models(LLMs) 및 Vision Transformers(ViTs)의 내부 표현을 분석하는 데 사용되는 Sparse Autoencoder (SAEs)의 한계를 개선한 모델입니다. 기존 Top-K SAE가 모든 입력에 고정된 희소성 수준(K)을 강제하여 데이터의 다양한 복잡성을 반영하지 못했던 문제를 해결하기 위해, SoftSAE는 입력에 따라 최적의 활성 특징 수 k를 동적으로 선택하는 메커니즘을 도입했습니다. 이를 통해 모델은 각 입력의 정보량과 구조에 가장 적합한 표현력을 갖추게 되어 해석 가능성과 성능이 향상됩니다.

핵심 포인트

SAEs는 LLMs/ViTs의 내부 표현 분석(mechanistic interpretability)에 중요한 도구이다.
기존 Top-K SAE는 모든 입력에 고정된 희소성 수준을 적용하여 데이터의 변화하는 복잡성을 반영하지 못한다.
SoftSAE는 미분 가능한 Soft Top-K 연산자를 사용하여 입력 의존적인 동적 희소성 선택 메커니즘을 구현했다.
이 접근 방식은 모델이 각 입력의 정보량에 맞춰 최적의 활성 특징 수를 조정하게 하여 표현력을 높인다.

Sparse Autoencoders (SAEs) 는 기계적 해석 가능성 (mechanistic interpretability) 의 중요한 도구로 자리 잡았으며, Large Language Models (LLMs) 과 Vision Transformers (ViTs) 의 내부 표현을 분석하는 데 도움을 줍니다. 다의적 활성화 (polysemantic activations) 를 단의적 특징 (monosemantic features) 의 희소 집합으로 분해함으로써 SAE 는 신경망 계산을 인간이 이해할 수 있는 개념으로 번역하려 합니다. 그러나 TopK SAE 와 같은 일반적인 아키텍처는 고정된 희소성 수준을 사용합니다. 이는 모든 입력에 대해 동일한 활성 특징 수 (K) 를 강제하며, 실제 데이터의 다양한 복잡성을 무시합니다. 자연 데이터는 국소 내재 차원성이 변하는 다양하게 변화하는 매니폴드 (manifolds) 위에 위치하며, 이는 관련 인자가 샘플마다 크게 달라질 수 있음을 의미합니다. 이는 고정된 희소성 수준이 최적적이지 않음을 시사합니다. 간단한 입력은 몇 개의 특징만 필요할 수 있으며, 더 복잡한 입력은 더 표현력 있는 표현을 필요로 합니다. 따라서 상수 K 를 사용하면 단순한 경우에서 노이즈를 유발하거나, 더 복잡한 경우에서 중요한 구조를 놓칠 수 있습니다. 이러한 문제를 해결하기 위해 우리는 Dynamic Top-K 선택 메커니즘을 가진 Sparse Autoencoder 인 SoftSAE 를 제안합니다. 우리의 방법은 입력에 의존하는 희소성 수준 k 를 학습하기 위해 미분 가능한 Soft Top-K 연산자를 사용합니다. 이는 모델이 각 입력의 복잡성에 따라 활성 특징 수를 조정할 수 있게 합니다. 결과적으로, 표현은 데이터의 구조와 더 잘 일치하며, 설명 길이는 입력의 정보량과 반영됩니다. 실험 결과는 SoftSAE 가 의미 있는 특징을 찾는 것뿐만 아니라, 각 개념에 맞는 적절한 특징 수를 선택한다는 것을 확인합니다. 소스 코드는 다음과 같이 이용 가능합니다: https://anonymous.4open.science/r/SoftSAE-8F71/.

AI 자동 생성 콘텐츠

원문 바로가기

SoftSAE: Dynamic Top-K Selection for Adaptive Sparse Autoencoders

요약

핵심 포인트

댓글