arXiv논문2026. 05. 13. 04:29

언어 모델 해석 가능성을 위한 데이터 기반 회로 발견

요약

본 기사는 언어 모델(LM)의 동작을 해석하기 위한 '회로 발견' 방법론의 한계를 지적합니다. 기존 방식은 작업이 단일 회로로 구현된다는 강력한 가정을 전제하고, 데이터셋이 인간의 의미를 완벽히 대표한다고 가정합니다. 연구진이 제안하는 DCD(Data-driven Circuit Discovery)는 이러한 가설 기반 접근 방식을 탈피하여, 데이터가 LM 내부 메커니즘적 구조 자체를 드러내도록 함으로써 모델 해석의 정확성과 포괄성을 높입니다.

핵심 포인트

회로 발견은 언어 모델이 특정 작업을 수행하는 계산 서브그래프(회로)를 찾아 설명하는 것을 목표로 합니다.
기존 회로 발견 방법론은 '단일 회로' 가정과 데이터셋의 완벽한 의미적 대표성이라는 두 가지 강력한 가정을 전제합니다.
DCD는 이러한 가설 기반 접근을 개선하여, 작업 경계에 의존하기보다 데이터가 LM 내부 메커니즘 구조를 직접 드러내도록 합니다.
실험 결과, DCD는 하나의 작업을 설명하는 단일 회로 대신 여러 개의 개별적이고 더 충실한 회로들을 발견합니다.

회로 발견(Circuit discovery)은 언어 모델(LMs)이 특정 작업을 어떻게 구현하는지, 즉 LM의 동작을 담당하는 계산 서브그래프인 '회로(circuit)'를 국소화하고 해석함으로써 설명하는 것을 목표로 합니다. 기존의 회로 발견 방법들은 가설 기반적입니다. 이들은 먼저 데이터셋으로 작업을 비공식적으로 정의한 다음, 해당 데이터셋에 대해 회로 발견 알고리즘을 적용하여 단일 회로를 얻습니다. 이는 두 가지 강력한 가정을 부과합니다: 첫째, LM이 단일 회로로 작업을 구현한다는 가정, 그리고 둘째, 데이터셋이 인간이 이해하는 작업의 의미론적(semantic) 측면을 적절히 대표한다는 가정입니다. 우리는 이 네 가지 이전에 연구된 작업을 걸쳐서 이러한 가정들을 체계적으로 테스트했으며, 작업의 의미를 보존하는 사소한 데이터셋 변화만으로도...

이는 개별 메커니즘들이 하나의 회로로 통합되기보다는 분리되어 나타나게 합니다. 각 회로는 전체 작업을 설명하는 것이 아니라 해당 그룹을 설명합니다. 실험 결과에 따르면 DCD는 데이터셋당 여러 개의 회로를 발견하며, 이는 기존 방법론이 발견한 단일 회로보다 자신의 그룹에 더 충실합니다. 광범위하게 볼 때, DCD는 모델(LMs)이 어떻게 계산을 구성하는지에 맞춰져 있지 않을 수 있는 인간 정의의 작업 경계에 의존하기보다는, 데이터가 LM 내부의 메커니즘적 구조를 드러내도록 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 모델 해석 가능성을 위한 데이터 기반 회로 발견

요약

핵심 포인트

댓글