arXiv논문2026. 06. 09. 10:44

SAEExplainer: 활성화 유도 선호 최적화(Activation-Guided Preference Optimization)를 통한 SAE

요약

SAEExplainer는 희소 오토인코더(SAE)의 특징을 설명하기 위해 활성화 점수를 보상 신호로 사용하는 새로운 프레임워크를 제안합니다. 2라운드 최적화 과정을 통해 모델이 스스로 설명을 검증하고 수정함으로써 설명의 환각을 줄이고 인과적 패턴을 강화합니다.

핵심 포인트

활성화 점수를 객관적 보상 신호로 활용하는 프레임워크 제안
2라운드 최적화를 통한 자기 수정 및 반복적 부트스트래핑 구현
설명의 환각 현상을 크게 감소시키고 인과적 트리거링 강화
기존 베이스라인 대비 인과적 트리거링 및 판별적 활성화 성능 개선

희소 오토인코더 (Sparse Autoencoders, SAEs)가 밀집된 표현 (dense representations)을 희소한 특징 (sparse features)으로 분해함으로써 대규모 언어 모델 (LLMs)의 불투명성을 완화해 왔지만, 이러한 특징들을 설명하는 것은 여전히 핵심적인 과제로 남아 있습니다. 그러나 현재의 설명 방법들은 일반적으로 오픈 루프 (open-loop) 패러다임 내에서 작동하며, 추가적인 개선을 위한 기계론적 피드백 (mechanistic feedback)을 활용하지 못하고 있습니다. 본 논문에서는 활성화 점수 (activation scores)를 객관적인 보상 신호 (reward signal)로 사용하여 모델이 자기 수정 (self-correction) 및 반복적인 부트스트래핑 (iterative bootstrapping)을 수행하도록 훈련하는 프레임워크인 SAEExplainer를 제안합니다. SAEExplainer는 2라운드 최적화 과정을 통해 기초적인 설명들을 반복적으로 검증하고 수정함으로써, 설명 능력의 지속적인 향상을 달성합니다. 이 메커니즘은 설명의 환각 (hallucinations)을 크게 줄이고 인과적 트리거링 패턴 (causal triggering patterns)을 강화합니다. 광범위한 실험을 통해 우리의 접근 방식이 대부분의 지표, 특히 인과적 트리거링 (causal triggering)과 판별적 활성화 (discriminative activation) 측면에서 기존의 베이스라인 (baselines)보다 개선되었음을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SAEExplainer: 활성화 유도 선호 최적화(Activation-Guided Preference Optimization)를 통한 SAE

요약

핵심 포인트

댓글