arXiv논문2026. 06. 09. 11:12

희소 오토인코더 (Sparse Autoencoder) 스티어링 부작용의 개입 전 예측

요약

희소 오토인코더(SAE)를 이용한 언어 모델 스티어링 시 발생하는 부작용을 개입 전에 예측하는 프레임워크를 제안합니다. 모델과 사전 설정에 따라 효과 안정성과 부수적 확산 측면에서 예측 가능한 특징 시그니처를 분석했습니다.

핵심 포인트

SAE 스티어링 부작용을 예측하는 사전 스크리닝 프레임워크 소개
효과 안정성과 부수적 확산을 통한 스티어링 모듈성 구체화
디코더 기하학 및 활성화 통계량이 부작용 예측에 효과적임
모델 및 사전(dictionary) 설정에 따라 예측 신호의 강도가 다름

희소 오토인코더 (Sparse Autoencoder, SAE) 특징 (features)은 언어 모델을 스티어링 (steering)하는 데 점점 더 많이 사용되고 있지만, 특징 스티어링은 깨끗하게 이루어지는 경우가 드뭅니다. 동일한 개입 (intervention)이 문맥에 따라 일관성 없게 동작하거나 관련 없는 특징들을 교란할 수 있기 때문입니다. 우리는 스티어링 이전에 계산된 특징 통계량으로부터 SAE 스티어링 부작용을 예측하기 위한 개입 전 스크리닝 프레임워크 (pre-intervention screening framework)를 소개합니다. 우리는 스티어링 모듈성 (steering modularity)의 두 축인 효과 안정성 (effect stability)과 부수적 확산 (collateral spread)을 따라 부작용을 구체화하였으며, ReLU, JumpReLU, TopK SAE 사전 (dictionaries) 전반에 걸쳐 GPT-2-small, Pythia-70M-deduped, Gemma-2-2B, 그리고 Llama-3.1-8B를 평가했습니다. 이러한 설정 전반에서 디코더 기하학 (decoder geometry), 활성화 통계량 (activation statistics), 공동 활성화 구조 (co-activation structure), 그리고 직접 로짓 발자국 (direct-logit footprint)은 빈도 전용 (frequency-only) 및 활성화 크기 (activation-magnitude) 베이스라인보다 스티어링 모듈성을 더 잘 예측합니다. 이 신호는 크기 관련 혼란 변수 (magnitude-related confounds)에 대한 잔차화 (residualization) 후에도 살아남는 GPT-2-small, Pythia-70M, Llama-3.1-8B에서 가장 강력하며, Gemma-2-2B에서는 더 약하게 나타납니다. 홀드아웃 스크리닝 (Held-out screening) 결과, 예측된 깨끗함 (cleanliness)에 따라 미학습 특징의 순위를 매기면 새로운 문맥에서 더 깨끗하게 스티어링되는 특징을 선택할 수 있음을 보여주었으나, 성공적인 축은 설정마다 달랐습니다: GPT-2는 가장 깨끗하게 개선되었고, Pythia는 주로 안정성 측면에서, Llama는 주로 부수적 확산 측면에서, 그리고 Gemma는 부분적으로만 개선되었습니다. 통제된 Llama Scope 너비 비교에 따르면, 스크리닝의 이득이 덜 안정적이게 되기는 하지만, 예측 신호는 사전 (dictionary) 너비가 32K에서 128K로 변하더라도 유지됩니다. 종합적으로, SAE 스티어링 부작용은 사전에 예측 가능하지만, 유용한 예측자 시그니처 (predictor signature)와 전이된 모듈성 축은 모델 및 사전 설정에 따라 달라집니다.

AI 자동 생성 콘텐츠

원문 바로가기

희소 오토인코더 (Sparse Autoencoder) 스티어링 부작용의 개입 전 예측

요약

핵심 포인트

댓글