두 네트워크가 같다는 것은 언제인가? 기계론적 해석 가능성 (Mechanistic Interpretability)을 위한 텐서 유사도
요약
본 기사는 모델의 의미 있는 부분들을 분해하여 두 부분이 동일한 계산을 구현하는지 확인하는 '기계론적 해석 가능성(Mechanistic interpretability)' 분야를 다룹니다. 기존 유사도 측정 방식이 가진 한계를 극복하기 위해, 대칭성에 불변하며 전역적인 기능적 동등성을 포착할 수 있는 새로운 지표인 '텐서 유사도(tensor similarity)'를 제안합니다. 이 텐서 유사도는 복잡한 훈련 역학을 높은 충실도로 추적하여 해석 가능성 문제를 경험적 근사에서 대수적 문제로 전환하는 것을 목표로 합니다.
핵심 포인트
- 기계론적 해석 가능성은 모델을 의미 있는 부분으로 분해하고, 이들이 동일한 계산을 구현하는지 확인하는 것이 핵심입니다.
- 기존 유사도 측정 방식은 분포 외 메커니즘 포착 실패나 가중치 공간의 대칭성 무시 등의 한계를 가집니다.
- 새롭게 제안된 '텐서 유사도'는 이러한 문제들을 해결하며, 대칭성에 불변한 가중치 기반 지표입니다.
- 이 텐서 유사도는 전역적 기능적 동등성을 포착하고, 재귀 알고리즘을 통해 계층 간 메커니즘 설명에 활용됩니다.
- 이를 통해 해석 가능성 검증 문제가 경험적 근사에서 해결된 대수적 문제로 전환될 수 있습니다.
기계론적 해석 가능성 (Mechanistic interpretability)은 모델을 의미 있는 부분들로 분해하는 것을 목표로 하며, 이러한 두 부분이 동일한 계산을 구현하는지 확인하는 것이 전제 조건입니다. 기존의 유사도 측정 방식은 경험적 행동 (empirical behaviour)을 평가하여 분포 외 (out-of-distribution) 메커니즘을 포착하지 못하거나, 기저 의존적 (basis-dependent) 파라미터를 평가하여 가중치 공간의 대칭성 (weight-space symmetries)을 무시한다는 문제가 있습니다. 텐서 기반 모델 (tensor-based models) 클래스에 대해 이러한 문제들을 해결하기 위해, 우리는 이러한 대칭성에 불변하는 가중치 기반 지표인 텐서 유사도 (tensor similarity)를 도입합니다. 이 지표는 전역적 기능적 동등성 (global functional equivalence)을 포착하며, 효율적인 재귀 알고리즘 (recursive algorithm)을 사용하여 계층 간 메커니즘 (cross-layer mechanisms)을 설명합니다. 경험적으로, 텐서 유사도는 grokking 및 백도어 삽입 (backdoor insertion)과 같은 기능적 훈련 역학 (functional training dynamics)을 기존 지표보다 더 높은 충실도로 추적합니다. 이는 유사도를 측정하고 충실성 (faithfulness)을 검증하는 문제를 경험적 근사 (empirical approximation)의 문제가 아닌, 해결된 대수적 문제 (algebraic problem)로 전환시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기