기호적 메커니즘적 데이터 귀속: 학습된 행동 정책으로의 훈련 영향 추적
요약
기존 데이터 귀속 방식의 한계를 극복하기 위해, 훈련 데이터가 모델의 고차원적 행동 결정에 미치는 영향을 분석하는 SMDA 프레임워크를 제안합니다. SAE 특징과 리지 회귀를 결합하여 훈련 예시가 모델의 기호적 정책을 어떻게 변화시키는지 메커니즘적으로 규명합니다.
핵심 포인트
- SMDA 프레임워크를 통한 기호적 정책과 데이터 귀속의 결합
- Llama-3.2-3B-Instruct의 거절 행동 분석을 통한 안전 행동 격차 확인
- 특징별 $\Delta_X/\Delta_Y$ 분해를 통한 유해/무해 데이터의 메커니즘적 설명
- 훈련 쌍이 의도하지 않은 특징에 미치는 간섭 효과 식별 가능
기존의 데이터 귀속 (Data Attribution) 방법들은 어떤 훈련 예시가 특정 메커니즘적 회로 (Mechanistic Circuits)를 구축하는지는 식별할 수 있지만, 훈련 데이터가 모델이 학습하는 고차원적인 행동 결정 (High-level Behavioral Decisions)을 어떻게 형성하는지는 설명하지 못합니다. 이러한 간극을 메우기 위해, 우리는 모델 행동을 지배하는 해석 가능한 기호적 정책 (Symbolic Policies)에 훈련 쌍 (Training Pairs)을 귀속시키는 프레임워크인 기호적 메커니즘적 데이터 귀속 (Symbolic Mechanistic Data Attribution, SMDA)을 소개합니다. SMDA는 대상 행동을 모델링하기 위해 희소 오토인코더 (Sparse Autoencoder, SAE) 특징 (Features)에 대해 폐쇄형 리지 회귀 (Closed-form Ridge Regression)를 적합시킨 후, 각 지도 미세 조정 (Supervised Fine-tuning, SFT) 예시가 특징 활성화 (Feature-activation) $\Delta_X$ 및 출력 확률 (Output-probability) $\Delta_Y$ 경로를 통해 해당 정책을 어떻게 변화시키는지 분석적으로 분해합니다. 우리는 Llama-3.2-3B-Instruct의 거절 행동 (Refusal Behavior)에 대한 기호적 정책을 추출하고 200개의 SFT 훈련 쌍을 분석했습니다. 우리의 분석 결과는 다음과 같습니다: (1) 기호적 정책의 계수 (Coefficients)는 종교적 고정관념과 같은 범주에 대해 베이스 모델의 안전 행동 (Safety Behavior)에 존재하는 체계적인 격차를 드러냅니다; (2) 특징별 $\Delta_X/\Delta_Y$ 분해는 왜 유해한 쌍과 무해한 쌍이 특정 특징에 대해 질적으로 다른 영향을 미치는지 메커니즘적으로 설명할 수 있습니다; (3) 개별 훈련 쌍은 일상적으로 특징 간 간섭 (Cross-feature Interference)을 나타내며, 이를 통해 SMDA는 지배적인 효과가 의도하지 않은 특징에 미치는 훈련 쌍을 식별할 수 있습니다. 이러한 결과는 메커니즘적 해석 가능성 (Mechanistic Interpretability)과 데이터 귀속을 결합하는 것이 블랙박스 영향 함수 (Black-box Influence Functions)보다 더 세밀하고 수동적인 회로 분석 (Manual Circuit Analysis)보다 더 확장 가능한 진단 도구를 제공함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기