arXiv논문2026. 05. 22. 11:28

활성화를 통한 작업 실패 분석: 간접 목적어 식별(IOI) 작업에 대한 GPT-2 small의 희소 특징(Sparse-Feature) 감사

요약

GPT-2 small 모델의 간접 목적어 식별(IOI) 작업 성공 및 실패 사례를 Sparse-Autoencoder(SAE)를 통해 분석한 연구입니다. 특정 특징(feature 17,491)과 실패 사례 간의 상관관계를 확인했으나, 인과적 절제 실험을 통해 해당 특징이 충분한 원인은 아님을 밝혀냈습니다.

핵심 포인트

SAE를 활용한 GPT-2 small의 IOI 작업 메커니즘 감사
특정 특징(cryptographic keys)과 작업 실패 간의 높은 상관관계 발견
인과적 절제 실험을 통해 상관관계와 인과관계의 차이 증명
해석 가능성을 제공하는 저비용 감사 파이프라인 제안

우리는 간접 목적어 식별 (Indirect Object Identification, IOI) 작업의 성공 사례와 실패 사례에서 GPT-2 small의 어떤 희소 오토인코더 (Sparse-Autoencoder, SAE) 특징들이 다르게 활성화되는지에 대한 작고 재현 가능한 감사를 보고합니다. 300개의 프롬프트에 대해 GPT-2 small은 79.7%의 정확도에 도달합니다. Bloom (2024)의 레이어-8 잔차 스트림 (residual-stream) SAE 릴리스에 포함된 24,576개의 특징 중 146개가 Holm 교정 유의성 임계값을 통과했으며, 105개는 큰 효과 크기 (|Cohen's d| > 0.8)에 도달했습니다. 실패의 가장 강력한 단일 상관관계는 특징 17,491 (d=+2.93, Neuronpedia 레이블 'cryptographic keys')로, 프롬프트의 전이된 목적어가 'the keys'인 경우를 제외하고는 본질적으로 침묵 상태를 유지합니다. 'the keys'인 경우 GPT-2 small은 93.3%의 실패율을 보이는 반면, 나머지 7개의 목적어에 대해서는 7.5%의 실패율을 보입니다 (Fisher exact p = 8.79 x 10^-33). 우리는 이 상관관계에 대해 기계론적 주장 (mechanistic claim)이 통과해야 할 세 가지 통제 실험을 수행했습니다. (i) 인과적 절제 (Causal ablation): 45개의 'keys' 프롬프트의 모든 토큰 위치에서 잔차 스트림의 특징 17,491을 0으로 만들었을 때 정확도가 회복되지 않았습니다 (6.7% -> 4.4%). 즉, 이 특징은 상관관계일 뿐, 이 레이어에서의 충분한 원인은 아닙니다. (ii) 표현 기저선 (Representation baseline): 원시 768차원 잔차 스트림에 대한 로지스틱 회귀 (logistic regression)는 5-fold ROC AUC = 0.929에 도달하여, 상위 100개의 SAE 특징 (0.927)과 일치했습니다. SAE 기저 (basis)는 예측력이 아닌 해석 가능성을 추가합니다. (iii) 시드 견고성 확인 (Seed-robustness check): 5개의 무작위 시드에 걸쳐 'keys' 하위 집합의 실패율은 75.0~93.3%로 유지되지만 (행동적 효과는 실제임), 특징 17,491이 상위 |d| 특징으로 나타나는 것은 5번의 실행 중 단 1번뿐이었습니다. 따라서 방법론적 기여는 이를 통해 발견된 단일 특징보다는 감사 파이프라인 (저비용, 모델 불가지론적, 명명된 상관관계를 표면화함)에 있습니다. 우리는 코드, 300개 프롬프트 코퍼스, 300x24,576 활성화 행렬, 절제 및 기저선 스크립트, 그리고 그림들을 공개합니다. 전체 파이프라인은 노트북 (Apple M3 Max, 외장 GPU 없음)에서 실행됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

활성화를 통한 작업 실패 분석: 간접 목적어 식별(IOI) 작업에 대한 GPT-2 small의 희소 특징(Sparse-Feature) 감사

요약

핵심 포인트

댓글