arXiv논문2026. 05. 15. 15:35

두 네트워크가 같다는 것은 언제인가? 기계론적 해석 가능성 (Mechanistic Interpretability)을 위한 텐서 유사도

요약

본 기사는 모델의 의미 있는 부분들을 분해하여 두 부분이 동일한 계산을 구현하는지 확인하는 '기계론적 해석 가능성(Mechanistic interpretability)' 분야를 다룹니다. 기존 유사도 측정 방식이 가진 한계를 극복하기 위해, 대칭성에 불변하며 전역적인 기능적 동등성을 포착할 수 있는 새로운 지표인 '텐서 유사도(tensor similarity)'를 제안합니다. 이 텐서 유사도는 복잡한 훈련 역학을 높은 충실도로 추적하여 해석 가능성 문제를 경험적 근사에서 대수적 문제로 전환하는 것을 목표로 합니다.

핵심 포인트

기계론적 해석 가능성은 모델을 의미 있는 부분으로 분해하고, 이들이 동일한 계산을 구현하는지 확인하는 것이 핵심입니다.
기존 유사도 측정 방식은 분포 외 메커니즘 포착 실패나 가중치 공간의 대칭성 무시 등의 한계를 가집니다.
새롭게 제안된 '텐서 유사도'는 이러한 문제들을 해결하며, 대칭성에 불변한 가중치 기반 지표입니다.
이 텐서 유사도는 전역적 기능적 동등성을 포착하고, 재귀 알고리즘을 통해 계층 간 메커니즘 설명에 활용됩니다.
이를 통해 해석 가능성 검증 문제가 경험적 근사에서 해결된 대수적 문제로 전환될 수 있습니다.

기계론적 해석 가능성 (Mechanistic interpretability)은 모델을 의미 있는 부분들로 분해하는 것을 목표로 하며, 이러한 두 부분이 동일한 계산을 구현하는지 확인하는 것이 전제 조건입니다. 기존의 유사도 측정 방식은 경험적 행동 (empirical behaviour)을 평가하여 분포 외 (out-of-distribution) 메커니즘을 포착하지 못하거나, 기저 의존적 (basis-dependent) 파라미터를 평가하여 가중치 공간의 대칭성 (weight-space symmetries)을 무시한다는 문제가 있습니다. 텐서 기반 모델 (tensor-based models) 클래스에 대해 이러한 문제들을 해결하기 위해, 우리는 이러한 대칭성에 불변하는 가중치 기반 지표인 텐서 유사도 (tensor similarity)를 도입합니다. 이 지표는 전역적 기능적 동등성 (global functional equivalence)을 포착하며, 효율적인 재귀 알고리즘 (recursive algorithm)을 사용하여 계층 간 메커니즘 (cross-layer mechanisms)을 설명합니다. 경험적으로, 텐서 유사도는 grokking 및 백도어 삽입 (backdoor insertion)과 같은 기능적 훈련 역학 (functional training dynamics)을 기존 지표보다 더 높은 충실도로 추적합니다. 이는 유사도를 측정하고 충실성 (faithfulness)을 검증하는 문제를 경험적 근사 (empirical approximation)의 문제가 아닌, 해결된 대수적 문제 (algebraic problem)로 전환시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

두 네트워크가 같다는 것은 언제인가? 기계론적 해석 가능성 (Mechanistic Interpretability)을 위한 텐서 유사도

요약

핵심 포인트

댓글