본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 11:12

희소 오토인코더 (Sparse Autoencoder) 스티어링 부작용의 개입 전 예측

요약

희소 오토인코더(SAE)를 이용한 언어 모델 스티어링 시 발생하는 부작용을 개입 전에 예측하는 프레임워크를 제안합니다. 모델과 사전 설정에 따라 효과 안정성과 부수적 확산 측면에서 예측 가능한 특징 시그니처를 분석했습니다.

핵심 포인트

  • SAE 스티어링 부작용을 예측하는 사전 스크리닝 프레임워크 소개
  • 효과 안정성과 부수적 확산을 통한 스티어링 모듈성 구체화
  • 디코더 기하학 및 활성화 통계량이 부작용 예측에 효과적임
  • 모델 및 사전(dictionary) 설정에 따라 예측 신호의 강도가 다름

희소 오토인코더 (Sparse Autoencoder, SAE) 특징 (features)은 언어 모델을 스티어링 (steering)하는 데 점점 더 많이 사용되고 있지만, 특징 스티어링은 깨끗하게 이루어지는 경우가 드뭅니다. 동일한 개입 (intervention)이 문맥에 따라 일관성 없게 동작하거나 관련 없는 특징들을 교란할 수 있기 때문입니다. 우리는 스티어링 이전에 계산된 특징 통계량으로부터 SAE 스티어링 부작용을 예측하기 위한 개입 전 스크리닝 프레임워크 (pre-intervention screening framework)를 소개합니다. 우리는 스티어링 모듈성 (steering modularity)의 두 축인 효과 안정성 (effect stability)과 부수적 확산 (collateral spread)을 따라 부작용을 구체화하였으며, ReLU, JumpReLU, TopK SAE 사전 (dictionaries) 전반에 걸쳐 GPT-2-small, Pythia-70M-deduped, Gemma-2-2B, 그리고 Llama-3.1-8B를 평가했습니다. 이러한 설정 전반에서 디코더 기하학 (decoder geometry), 활성화 통계량 (activation statistics), 공동 활성화 구조 (co-activation structure), 그리고 직접 로짓 발자국 (direct-logit footprint)은 빈도 전용 (frequency-only) 및 활성화 크기 (activation-magnitude) 베이스라인보다 스티어링 모듈성을 더 잘 예측합니다. 이 신호는 크기 관련 혼란 변수 (magnitude-related confounds)에 대한 잔차화 (residualization) 후에도 살아남는 GPT-2-small, Pythia-70M, Llama-3.1-8B에서 가장 강력하며, Gemma-2-2B에서는 더 약하게 나타납니다. 홀드아웃 스크리닝 (Held-out screening) 결과, 예측된 깨끗함 (cleanliness)에 따라 미학습 특징의 순위를 매기면 새로운 문맥에서 더 깨끗하게 스티어링되는 특징을 선택할 수 있음을 보여주었으나, 성공적인 축은 설정마다 달랐습니다: GPT-2는 가장 깨끗하게 개선되었고, Pythia는 주로 안정성 측면에서, Llama는 주로 부수적 확산 측면에서, 그리고 Gemma는 부분적으로만 개선되었습니다. 통제된 Llama Scope 너비 비교에 따르면, 스크리닝의 이득이 덜 안정적이게 되기는 하지만, 예측 신호는 사전 (dictionary) 너비가 32K에서 128K로 변하더라도 유지됩니다. 종합적으로, SAE 스티어링 부작용은 사전에 예측 가능하지만, 유용한 예측자 시그니처 (predictor signature)와 전이된 모듈성 축은 모델 및 사전 설정에 따라 달라집니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0