탐지 vs 실행: 단일 버킷 프로브(Single-Bucket Probes)는 Mamba-2 상태 싱크(State Sink)의 절반을 놓친다
요약
Mamba-2 모델의 상태 싱크(state sink) 현상을 분석하여, 단일 버킷 프로브가 실제 계산을 수행하는 회로를 정확히 식별하지 못한다는 점을 밝혀냈습니다. 표현적 유사성이 반드시 기능적 동등성을 의미하지 않음을 입증하며, 회로 분석 시 어블레이션의 중요성을 강조합니다.
핵심 포인트
- 단일 버킷 프로브는 실행 레이어만 복구하고 더 큰 탐지 레이어를 놓칠 수 있음
- Mamba-2의 상태 싱크는 BOS-전문가 헤드와 듀얼 헤드로 구분됨
- 표현 유사성이 반드시 인과적 기능(실행)을 보장하지 않음
- 정확한 회로 식별을 위해 클래스 조건부 어블레이션이 필요함
기계론적 해석 가능성 (Mechanistic interpretability)은 표현적 시그니처 (representational signature)를 식별하는 프로브 (probe)가 해당 계산을 실행하는 회로 (circuit) 또한 식별한다고 흔히 가정합니다. 우리는 이러한 가정이 Mamba-2에서 체계적으로 실패할 수 있음을 보여줍니다. 상태 싱크 (state sink, 어텐션 싱크 (attention sink)와 유사하게 경계 토큰에서 불균형적으로 높은 Delta-gate 활성화를 보이는 현상)를 연구한 결과, 단일 버킷 프로브 (single-bucket probes)는 동일한 표현적 시그니처를 가진 훨씬 더 큰 탐지 레이어 (detection layer)를 놓치면서 아주 작은 실행 레이어 (execution layer)만을 복구한다는 것을 발견했습니다. Mamba-2에서 상태 싱크는 두 개의 기능적 헤드 세트 (functional head sets)로 분해됩니다. 단일 버킷 BOS-전문가 헤드 (Single-bucket BOS-specialist heads, 2.7B 모델의 헤드 중 약 5%)는 모델 규모와 코퍼스 (corpora)에 관계없이 BOS-컨텍스트 (BOS-context) 및 줄바꿈-타겟 (newline-target) 예측을 인과적으로 지원합니다. 듀얼 헤드 (Dual heads, 동일한 프로브의 다중 클래스 집계 (multi-class aggregation)로 복구되는 헤드의 27-35%)는 더 강한 BOS-줄바꿈 표현 유사성 (representational similarity)을 보이지만, 어블레이션 (ablation) 하에서는 인과적 효과가 실질적으로 더 약합니다. 표현 유사성이 기능적 동등성 (functional equivalence)을 의미하지는 않습니다. 이러한 구분은 다운스트림 동작 (downstream behaviour)에 중요합니다. BOS-전문가 헤드를 어블레이션하면 Mamba-1 2.8B와 Mamba-2 2.7B 모두에서 1024 컨텍스트 길이일 때 RULER NIAH 검색 정확도가 1.00에서 0.00으로 붕괴되는 반면, 크기가 동일한 보완 헤드들은 기본 성능을 유지합니다. 무작위 채널 버케팅 (random channel-bucketing) 대조군 실험은 기질의 입도 (substrate granularity) 문제만은 아님을 입증하며, Mamba-2의 헤드 공유 Delta 투영 (head-shared Delta projection)을 시사합니다. 프로브에서 유도된 전문성은 실행 회로를 식별할 수 있습니다. 거친 입도 (coarse granularity)에서는 동일한 프로브가 탐지 회로 또한 복구하며, 이들을 분리하기 위해서는 클래스 조건부 코사인 유사도 (class-conditional cosine)가 아닌 클래스 조건부 어블레이션 (class-conditional ablation)이 필요합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기