arXiv논문2026. 06. 29. 11:28

다중 매개변수의 저주: 활성화 패칭(Activation Patching)에서의 숨겨진 상호작용 효과

요약

활성화 패칭(Activation Patching) 과정에서 발생하는 상호작용 효과(Interaction Effects)의 존재를 규명합니다. NIE가 구성 요소 간의 의존성을 포함하고 있음을 증명하며, 이를 통해 기존 해석 가능성 연구의 불안정성을 설명합니다.

핵심 포인트

활성화 패칭의 NIE에는 구성 요소 간 상호작용 효과(INT)가 포함됨
INT는 기존 충실도 점수(Faithfulness Scores)의 불안정성을 유발함
INT는 모델이 국소적으로 아핀(Locally Affine)할 때 무시 가능함
INT는 제거 대상이 아닌 해석 가능성 연구를 위한 진단 도구로 활용 가능

활성화 패칭 (Activation Patching)은 기계론적 해석 가능성 (Mechanistic Interpretability) 분야의 주요 도구입니다. 이 방법은 자연 간접 효과 (Natural Indirect Effect, NIE)를 추정함으로써 모델 행동에 대한 인과적 책임을 각 개별 구성 요소에 귀속시킵니다. 인과 매개 분석 (Causal Mediation Analysis)으로부터 활성화 패칭 추정량 (Estimand)을 재도출한 결과, NIE가 특정 구성 요소를 통한 인과 효과만을 포착하는 것이 아님을 발견했습니다. NIE에는 해당 구성 요소의 인과 효과 자체가 모델 내 다른 구성 요소의 상태에 얼마나 의존하는지를 측정하는 상호작용 효과 (Interaction Effects, INT)가 포함되어 있습니다. 추정량이나 분석 단위를 조정하여 INT를 제거하려는 시도가 자연스러운 대응일 수 있으나, 이러한 잠재적 해결책들은 각각 예측 가능한 실패 모드 (Failure Modes)를 가지고 있습니다. 우리는 GPT-2 IOI 회로에서 이러한 실패 모드를 입증했습니다. 다른 구성 요소의 상태에 따라 인과적 중요성이 결정되는 구성 요소들은 보이지 않거나 인위적으로 부풀려지며, INT 분산 (Variance)은 이전에 기록된 충실도 점수 (Faithfulness Scores)의 불안정성을 설명합니다. 우리는 INT가 깨끗한(clean) 활성화와 패칭된(patched) 구성 요소 활성화 사이의 거리와 함께 규모가 커지며, 모델이 국소적으로 아핀 (Locally Affine)할 때는 무시할 수 있는 수준이고, 쌍체(Pairwise) 및 고차 그룹 상호작용으로 조합론적으로 분해된다는 것을 증명합니다. INT는 불가피함에도 불구하고 제거해야 할 골칫거리가 아니라, 오히려 해석 가능성 연구를 위한 진단 도구입니다. INT의 개별 및 그룹 수준의 크기와 부호는 인과적 결론이 프롬프트에 의존적인지, 그리고 탐욕적(Greedy)인 NIE 기반 구성 요소 순위 매기기가 조합론적 탐색을 통해서만 발견 가능한 메커니즘을 놓치게 될지를 알려주는 신호가 됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

다중 매개변수의 저주: 활성화 패칭(Activation Patching)에서의 숨겨진 상호작용 효과

요약

핵심 포인트

댓글