arXiv논문2026. 06. 15. 05:47

라우팅은 언제 해석 가능해지는가? 블록 어텐션 잔차(Block Attention Residuals)에 대한 인과적 프로브(Causal

요약

Block Attention Residuals(Block AttnRes)를 통해 모델 내부의 교차 레이어 라우팅을 직접 관찰하고 기계론적 해석 가능성을 연구합니다. 연구 결과, 라우팅의 구조적 노출이 반드시 인과적 중요성을 보장하지는 않으며, 라우팅 메커니즘은 반드시 인과적 개입을 통해 검증되어야 함을 밝힙니다.

핵심 포인트

Block AttnRes를 통해 간접적이었던 정보 흐름을 직접 관찰 가능
학습된 라우팅은 임베딩, 현재 상태, 이전 히스토리 경로의 모티프를 형성
라우팅 질량(mass)과 인과적 중요도 사이의 해리 현상 발견
구조적 노출은 해석을 위한 필요조건일 뿐 충분조건은 아님

Block Attention Residuals (Block AttnRes)는 고정된 가산 잔차(additive residuals)를 이전 깊이 소스 표현(earlier depth-source representations)에 대한 학습된 소프트맥스(softmax)로 대체함으로써, 순전파(forward pass) 과정에서 교차 레이어 라우팅(cross-layer routing)을 검사 가능한 텐서(tensor)로 드러냅니다. 이는 매우 매력적인 해석 가능성(interpretability) 대상입니다. 통상적으로 간접적으로 추론되던 정보 흐름을 이제 직접 관찰할 수 있기 때문입니다. 우리는 이러한 노출이 기계론적 해석(mechanistic interpretation)에 충분한지 질문합니다. 우리는 동일한 라우팅 제거 개입(routing-ablation interventions) 하에서 동일한 규모($0.6$B)의 두 Block AttnRes 체크포인트를 프로브(probe)합니다. 하나는 코드베이스에서 라우팅과 동등한 로딩 경로로 인정되는 결정론적 최신성 편향 스케줄(deterministic recency-bias schedule)을 통해 래핑된 바닐라(vanilla) Qwen3이며, 다른 하나는 최적화(optimisation)의 일부로 라우팅을 포함하여 처음부터 학습된 Block AttnRes Qwen3입니다. 래핑된 베이스라인의 라우팅 가중치는 콘텐츠와 무관하며 스케줄의 분석적 예측을 재현합니다. 반면 학습된 AttnRes 체크포인트는 세 가지 국소적 라우팅 모티프(routing motifs)를 보여줍니다: 초기 레이어 MLP를 통한 임베딩 소스 경로(embedding-source pathway), 초기 레이어 어텐션(attention) 및 MLP를 통한 현재 상태 경로(current-state pathway), 그리고 후기 레이어 어텐션을 통한 이전 히스토리 경로(older-history pathway)입니다. 이러한 계층화 외에도, 우리는 평균 라우팅 질량(routing mass)과 인과적 중요도(causal importance) 사이의 급격한 해리(dissociation)를 발견했습니다. 두 서브레이어(sublayers) 모두에서 가장 큰 질량 슬라이스가 가장 큰 인과적 기여를 나타내지는 않았으며, 한 소스 계열은 상당한 질량을 보유하고 있음에도 개입(intervention) 하에서 감지 가능한 인과적 역할을 수행하지 않았습니다. 따라서 라우팅의 구조적 노출은 기계론적 해석을 위해 필요하지만 충분하지는 않습니다. 구조화된 깊이 라우팅(depth routing)은 라우팅이 학습의 일부였을 때만 나타나며, 설령 그렇다 하더라도 기술적인 라우팅 요약은 그 자체로 메커니즘의 증거가 아니라 인과적 개입을 통해 테스트되어야 할 후보 가설로 취급되어야 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

라우팅은 언제 해석 가능해지는가? 블록 어텐션 잔차(Block Attention Residuals)에 대한 인과적 프로브(Causal

요약

핵심 포인트

댓글