arXiv논문2026. 05. 08. 13:05

LLM 해석 가능성을 위한 패치 효과 그래프 커널

요약

본 논문은 LLM의 작동 방식을 해석하는 메커니즘적 해석(Mechanistic Interpretability) 분야에서 발생하는 고차원적이고 비정형적인 활성화 패치 데이터를 체계적으로 비교하고 분석할 수 있는 새로운 프레임워크를 제안합니다. 이 프레임워크는 활성화-패칭 프로파일을 모델 구성 요소에 대한 '패치 효과 그래프(patch-effect graphs)'로 재구성하여, 이를 그래프 커널 기법으로 분석합니다. 실험 결과, 이러한 그래프 구조가 차별적인 구조적 신호를 보존하며, 특히 국소화된 엣지-슬롯 특징이 높은 분류 정확도를 보여주어 LLM의 인과 회로를 비교하고 평가하는 강력한 방법을 제시합니다.

핵심 포인트

메커니즘적 해석을 그래프 머신러닝 문제로 재정의하여, 활성화 패칭 데이터를 구조화된 '패치 효과 그래프'로 표현한다.
세 가지 그래프 구성 방법(직접 영향, 부분 상관관계, 공동 영향)을 도입하고 그래프 커널을 적용하여 분석의 깊이를 더했다.
그래프 특징이 원시 텐서나 표면적 단서보다 구조화된 패칭 신호를 압축적으로 보존하며 우수한 성능을 보인다.
제안된 프레임워크는 강력한 통제 기준선(prompt-only, raw patch-effect controls)과 비교하여 회로 수준의 주장을 명확히 검증할 수 있는 평가 파이프라인을 제공한다.

기계적 해석 가능성(Mechanistic interpretability)은 활성화 패칭(activation patching)을 통해 인과 회로(causal circuits)를 식별함으로써 트랜스포머(transformer) 계산을 역설계하는 것을 목표로 합니다. 하지만 이러한 개입(interventions)을 다양한 프롬프트와 작업군에 걸쳐 확장하면, 체계적으로 비교하기 어려운 고차원적이고 비정형적인 데이터셋이 생성됩니다. 본 논문에서는 기계적 분석을 그래프 머신러닝 문제로 재구성하는 프레임워크를 제안하며, 활성화 패칭 프로파일(activation-patching profiles)을 모델 구성 요소에 걸친 패치 효과 그래프(patch-effect graphs)로 표현합니다. 우리는 세 가지 그래프 구축 방법인 인과 매개(causal mediation)를 통한 직접 영향(direct-influence), 부분 상관관계(partial-correlation, PC), 그리고 공동 영향(co-influence)을 도입하고, 결과 구조 분석에 그래프 커널(graph kernels)을 적용합니다. 간접 목적어 식별(Indirect Object Identification, IOI) 및 관련 작업을 사용하여 GPT-2 Small에서 이 접근 방식을 평가한 결과, 패치 효과 그래프가 판별적인 구조적 신호(discriminative structural signals)를 보존한다는 것을 발견했습니다. 구체적으로, 국소화된 엣지-슬롯 특징(localized edge-slot features)이 전역적인 그래프 모양 기술자(global graph-shape descriptors)보다 더 높은 분류 정확도를 제공합니다. 스크리닝된 쌍별 패칭 검증(screened paired-patching validation)은 CI와 PC로 선택된 후보 엣지들이 무작위 또는 저랭크(low-rank) 후보들보다 더 강력한 활성화-영향 효과에 해당함을 시사합니다. 결정적으로, 이러한 표현들을 엄격한 프롬프트 전용 및 원시 패치 효과 제어(raw patch-effect controls)와 비교하여 평가함으로써, 본 벤치마크의 증거 범위(evidential scope)를 명확히 합니다: 그래프 특징은 구조화된 패칭 신호를 압축하는 반면, 원시 텐서(raw tensors)와 표면 단서는 모든 회로 수준 주장(circuit-level claim)이 다루어야 할 강력한 기준선(strong baselines)을 정의합니다. 궁극적으로, 본 프레임워크는 통제된 기준선 하에서 패칭 기반 구조를 비교하기 위한 압축 및 평가 파이프라인을 제공하며, 견고한 슬라이스-판별적 증거(slice-discriminative evidence)와 더 강력한 작업 일반 인과 회로 주장(task-general causal-circuit claims)을 분리합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 해석 가능성을 위한 패치 효과 그래프 커널

요약

핵심 포인트

댓글