본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 11:28

활성화를 통한 작업 실패 분석: 간접 목적어 식별(IOI) 작업에 대한 GPT-2 small의 희소 특징(Sparse-Feature) 감사

요약

GPT-2 small 모델의 간접 목적어 식별(IOI) 작업 성공 및 실패 사례를 Sparse-Autoencoder(SAE)를 통해 분석한 연구입니다. 특정 특징(feature 17,491)과 실패 사례 간의 상관관계를 확인했으나, 인과적 절제 실험을 통해 해당 특징이 충분한 원인은 아님을 밝혀냈습니다.

핵심 포인트

  • SAE를 활용한 GPT-2 small의 IOI 작업 메커니즘 감사
  • 특정 특징(cryptographic keys)과 작업 실패 간의 높은 상관관계 발견
  • 인과적 절제 실험을 통해 상관관계와 인과관계의 차이 증명
  • 해석 가능성을 제공하는 저비용 감사 파이프라인 제안

우리는 간접 목적어 식별 (Indirect Object Identification, IOI) 작업의 성공 사례와 실패 사례에서 GPT-2 small의 어떤 희소 오토인코더 (Sparse-Autoencoder, SAE) 특징들이 다르게 활성화되는지에 대한 작고 재현 가능한 감사를 보고합니다. 300개의 프롬프트에 대해 GPT-2 small은 79.7%의 정확도에 도달합니다. Bloom (2024)의 레이어-8 잔차 스트림 (residual-stream) SAE 릴리스에 포함된 24,576개의 특징 중 146개가 Holm 교정 유의성 임계값을 통과했으며, 105개는 큰 효과 크기 (|Cohen's d| > 0.8)에 도달했습니다. 실패의 가장 강력한 단일 상관관계는 특징 17,491 (d=+2.93, Neuronpedia 레이블 'cryptographic keys')로, 프롬프트의 전이된 목적어가 'the keys'인 경우를 제외하고는 본질적으로 침묵 상태를 유지합니다. 'the keys'인 경우 GPT-2 small은 93.3%의 실패율을 보이는 반면, 나머지 7개의 목적어에 대해서는 7.5%의 실패율을 보입니다 (Fisher exact p = 8.79 x 10^-33). 우리는 이 상관관계에 대해 기계론적 주장 (mechanistic claim)이 통과해야 할 세 가지 통제 실험을 수행했습니다. (i) 인과적 절제 (Causal ablation): 45개의 'keys' 프롬프트의 모든 토큰 위치에서 잔차 스트림의 특징 17,491을 0으로 만들었을 때 정확도가 회복되지 않았습니다 (6.7% -> 4.4%). 즉, 이 특징은 상관관계일 뿐, 이 레이어에서의 충분한 원인은 아닙니다. (ii) 표현 기저선 (Representation baseline): 원시 768차원 잔차 스트림에 대한 로지스틱 회귀 (logistic regression)는 5-fold ROC AUC = 0.929에 도달하여, 상위 100개의 SAE 특징 (0.927)과 일치했습니다. SAE 기저 (basis)는 예측력이 아닌 해석 가능성을 추가합니다. (iii) 시드 견고성 확인 (Seed-robustness check): 5개의 무작위 시드에 걸쳐 'keys' 하위 집합의 실패율은 75.0~93.3%로 유지되지만 (행동적 효과는 실제임), 특징 17,491이 상위 |d| 특징으로 나타나는 것은 5번의 실행 중 단 1번뿐이었습니다. 따라서 방법론적 기여는 이를 통해 발견된 단일 특징보다는 감사 파이프라인 (저비용, 모델 불가지론적, 명명된 상관관계를 표면화함)에 있습니다. 우리는 코드, 300개 프롬프트 코퍼스, 300x24,576 활성화 행렬, 절제 및 기저선 스크립트, 그리고 그림들을 공개합니다. 전체 파이프라인은 노트북 (Apple M3 Max, 외장 GPU 없음)에서 실행됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0