arXiv논문2026. 06. 05. 14:05

많은 회로, 하나의 메커니즘: 회로 발견에서의 입력 변동성과 평가 세분성

요약

회로 발견 방법론에서 나타나는 구조적 차이가 실제 기능적 차이와 일치하지 않을 수 있다는 '환상 특성화' 현상을 규명합니다. Pythia 모델 실험을 통해 입력 통계 변화에 따른 회로의 구조적 변동이 동일한 계산 메커니즘을 공유함을 증명했습니다.

핵심 포인트

구조적 차이가 반드시 별개의 메커니즘을 의미하지 않음
입력 통계 변화에 따른 '환상 특성화' 현상 발견
엣지 수준 평가를 통한 다대일 매핑 확인 필요성 제기
회로 발견 알고리즘은 유효한 서브그래프의 등가류를 샘플링함

회로 발견 (Circuit discovery) 방법론은 특정 모델 동작을 설명하는 서브그래프 (subgraphs)를 식별하며, 발견된 회로들 사이의 구조적 차이는 흔히 별개의 메커니즘 (mechanisms)에 대한 증거로 해석됩니다. 본 연구에서는 과업을 고정한 채 입력 통계 (input statistics)를 변화시킴으로써 이 가설을 테스트하며, 그 결과로 나타나는 구조적 차이가 겉보기에는 특성화 (specialization)된 것처럼 보이지만 실제 기능적 차이에는 대응하지 않는다는 것을 보여줍니다. 우리는 이러한 패턴을 환상 특성화 (phantom specialization)라고 명명합니다. 5개의 Pythia 모델 (70M-1.4B)에서 4개의 토큰 빈도 대역 (token-frequency bands)과 대조군 조건을 사용하여 리터럴 시퀀스 복사 (Literal Sequence Copying)를 수행한 결과, 75개의 회로를 추출하였으며 구조적으로 구별되는 회로들이 동일한 계산을 수행한다는 것을 발견했습니다. 즉, 대역별 엣지 (band-specific edges)는 대역 간에 광범위하게 전이되며, 대부분의 대역에서 공유되는 핵심 회로가 회로 성능의 최소 99%를 회복합니다. 또한 인과적 교체 개입 (causal interchange interventions)을 통해 내부 표현 (internal representations)이 빈도 대역 간에 서로 교체 가능하다는 것을 확인했습니다. 동일한 빈도 대역 내에서의 반복적인 추출은 회로 발견 알고리즘이 고유한 메커니즘을 회복하기보다는 유효한 서브그래프의 등가류 (equivalence class)에서 샘플링한다는 점을 시사합니다. 표준적인 평가 관행은 이러한 패턴을 가립니다. 소스 수준 평가 (source-level evaluation)는 겉보기 충실도 (faithfulness)를 부풀리는 반면, 엣지 수준 평가 (edge-level evaluation)는 구조에서 기능으로 이어지는 다대일 매핑 (many-to-one mapping)을 드러냅니다. 우리의 결과는 회로 간의 구조적 차이가 별개의 메커니즘에 대한 충분한 증거가 되지 못하며, 이를 밝혀내기 위해서는 엣지 수준의 평가와 조건 간 전이 테스트 (cross-condition transfer tests)가 필요함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

많은 회로, 하나의 메커니즘: 회로 발견에서의 입력 변동성과 평가 세분성

요약

핵심 포인트

댓글