arXiv논문2026. 05. 22. 11:20

상관관계에서 인과관계로: Transformer 언어 모델의 특징 분석을 위한 5단계 방법론

요약

Transformer 언어 모델의 인과적 특징을 분석하기 위한 5단계 방법론을 제안합니다. GPT-2 small 모델을 통해 활성화 패칭과 Sparse Autoencoder(SAE)를 활용한 회로 복구 및 인과적 검증 과정을 입증했습니다.

핵심 포인트

Transformer 모델의 인과적 특징 분석을 위한 5단계 방법론 제안
Sparse Autoencoder(SAE)를 통한 높은 활성화 분산 설명력 확인
탐지 강건성과 인과적 강건성 사이의 격차 발견
비용 효율적인 모델 모니터링을 위한 최적 구성 전략 제시

우리는 Transformer 언어 모델 (Transformer Language Models)의 인과적 특징 분석을 위한 5단계 방법론(프로브 설계 (probe design), 특징 추출 (feature extraction), 인과적 검증 (causal validation), 강건성 테스트 (robustness testing), 배포 통합 (deployment integration))을 제안하며, 이를 간접 목적어 식별 (Indirect Object Identification, IOI) 작업을 수행하는 GPT-2 small 모델에 대해 엔드 투 엔드 (end-to-end)로 입증합니다. 활성화 패칭 (Activation patching)은 표준적인 IOI 회로 (IOI circuit)를 복구합니다 (9번 레이어의 9번 헤드 단독으로 +1.02의 복구율을 보임). 희소 오토인코더 (Sparse Autoencoder, SAE)는 이름별 선택적 특징 (per-name selective features)을 30에서 50 활성화 단위 (activation units)의 효과 크기로 복구합니다. 인과적 검증 (Causal validation) 결과, 이러한 특징들은 구체적이지만 부분적으로만 인과적임이 밝혀졌습니다. 즉, 15개의 특징을 제거(ablation)하더라도 모델은 프롬프트의 98%에서 정확도를 유지합니다. 두 가지 NLA 기반 평가가 이러한 양상을 더욱 강화합니다. 15개의 선택적 특징은 활성화 분산 (activation variance)의 31%만을 설명하는 반면, SAE는 99.7%를 설명하며, 선택성 비율 (selectivity ratio)은 인과적 힘 (causal force)과 역상관 관계를 보입니다 (r = -0.56). 세 가지 분포 변화 (distribution shifts) 하에서의 강건성 테스트 (Robustness testing) 결과, 회로는 깔끔하게 전이되지만 특징 제거 (feature ablation) 효과는 상당히 저하되어, 탐지 강건성 (detection robustness)과 인과적 강건성 (causal robustness) 사이의 격차를 드러냅니다. 비용 기반 배포 평가 (가정: FN당 $50, FP당 $0.42, 오류율 2%)에서는 기준선인 $1000 대비 1000개 쿼리당 $8.96를 기록하여 99.1%의 비용 절감을 달성하는 최적의 모니터 구성을 찾아냈습니다. 최적의 구성 전략은 비용 비율 (cost ratio)과 기저율 (base rate)에 따라 달라집니다. 이러한 단계들의 결합은 단일 단계로는 얻을 수 없는 발견들을 만들어냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

상관관계에서 인과관계로: Transformer 언어 모델의 특징 분석을 위한 5단계 방법론

요약

핵심 포인트

댓글