arXiv논문2026. 05. 21. 11:53

회로 증거에서 기계론적 이론으로: 귀납적 논리 접근 방식

요약

본 연구는 기계론적 해석 가능성(Mechanistic Interpretability) 연구가 개별적인 실험에 그치지 않도록, 발견된 회로들을 체계적으로 연결하는 귀납적 이론 구축 프레임워크를 제안합니다. 인과적 기능 시그니처(CFS)와 귀납적 논리 프로그래밍(ILP)을 통해 회로의 계산 전략과 구조적 특징을 공식화하여, 모델 스케일과 아키텍처에 관계없이 회로를 비교하고 이식할 수 있는 기반을 마련합니다.

핵심 포인트

기계론적 해석 가능성 연구를 위한 공식적인 인프라 및 일관성 계층 제안
인과적 기능 시그니처(CFS)를 통한 회로의 계산 전략(어텐션 매개 복사 vs MLP 매개 결합) 규명
귀납적 논리 프로그래밍(ILP)을 활용하여 모델 스케일과 무관한 구조적 시그니처 도출
회로 간의 비교 가능성($ heta$-subsumption) 및 모델 간 이식성 확보

기계론적 해석 가능성 (Mechanistic interpretability)은 신경망 행동에 대한 회로 수준의 인과적 분석을 생성하지만, 발견된 회로들은 종종 고립된 실험적 인공물로 남습니다. 즉, 회로가 무엇을 계산하는지, 회로들이 서로 어떻게 연관되는지, 또는 두 가지 발견이 동일한 메커니즘에 대한 증거를 제공하는 시점이 언제인지에 대한 공유된 공식적 표현 (formal representation)이 존재하지 않습니다. 본 연구는 회로 해석을 귀납적 이론 구축 (inductive theory construction)으로 취급함으로써 누적적인 기계론적 과학을 위한 공식적인 인프라를 제공합니다. 각 회로는 두 가지 수준에서 특징지어집니다: 인과적 귀속 (causal attribution) 증거와 토큰 역할 프로필 (token role profiles)에 구성 요소의 행동을 근거로 하는 인과적 기능 시그니처 (Causal Functional Signature, CFS), 그리고 스케일 불변 구조적 술어 (scale-invariant structural predicates)로부터 귀납적 논리 프로그래밍 (Inductive Logic Programming, ILP)을 통해 학습된 아키텍처 시그니처 $τ_{\mathrm{arch}}$입니다. 이들은 함께 기계론적 주장을 명시적으로 만들고, $θ$-포함 ($\theta$-subsumption)을 통해 비교 가능하게 하며, 모델 스케일 전반에 걸쳐 이식 가능하게 만드는 공식적인 일관성 계층 (formal coherence layer)을 구성합니다. CFS는 어텐션 매개 복사 (attention-mediated copying) 대 MLP 매개 결합 (MLP-mediated binding)을 포함하여, 작업 유형에 따라 질적으로 구별되는 계산 전략을 드러냅니다. ILP 시그니처는 그래프 커널 (graph kernel) 및 특징 벡터 (feature-vector) 베이스라인보다 실질적으로 더 나은 구조적 분리를 달성하며, 모델 스케일 및 아키텍처 제품군 전반에 걸친 원칙적인 전이를 지원합니다.

AI 자동 생성 콘텐츠

원문 바로가기

회로 증거에서 기계론적 이론으로: 귀납적 논리 접근 방식

요약

핵심 포인트

댓글