arXiv논문2026. 06. 09. 11:52

어텐션 헤드(Attention Heads)에서의 폐쇄 검증 기반 회로 발견: 공동 활성화는 제안하고, 절제는 결정한다

요약

어텐션 헤드 회로를 식별하기 위해 공동 활성화 통계를 활용하는 방식의 유효성을 검증합니다. 연구 결과, 통계적 클러스터링은 회로의 후보를 제안할 뿐이며, 인과적 절제를 통한 폐쇄 검증만이 실제 회로를 확정할 수 있음을 밝힙니다.

핵심 포인트

공동 활성화 통계는 어텐션 헤드 회로의 제안(Proposal) 역할만 수행함
인과적 절제(Causal ablation)를 통한 폐쇄 검증이 회로 확정의 필수 기준임
MoE 모델에서는 경로 조건부 클러스터링이 폐쇄 검증을 통과하지 못함
훈련 과정 중 어텐션 타겟 선택성과 기능적 역할은 서로 분리됨

해석 가능성(Interpretability) 연구는 개별 단위가 아닌 컴포넌트의 집합을 기본 객체로 다루는 경향이 점점 증가하고 있으며, 공동 활성화(Co-activation) 통계를 클러스터링하여 이를 찾는 방법을 제안하고 있습니다. 우리는 이러한 저비용 신호(cheap signal)가 실제로 어텐션 헤드 회로(attention-head circuit)를 식별할 수 있는지 질문합니다. 희소 오토인코더(Sparse-autoencoder) 클러스터링 방식을 어텐션 헤드에 적용하되, 재구성(Reconstruction) 대신 인과적 절제(Causal ablation)를 통해 검증함으로써, 우리는 헤드를 클러스터링한 후 폐쇄 테스트(Closure test)를 수행합니다. 즉, 발견된 커뮤니티를 절제(Ablate)하고, 사례별 손상 정도를 매칭된 무작위 대조군(Matched-random controls)과 비교합니다. 두 개의 1B 규모 밀집 모델(Pythia 1B, OLMo 1B)과 두 개의 입력 분포에 대해, 해당 커뮤니티들은 폐쇄 검증을 통과했습니다. 전문가 혼합(Mixture-of-Experts, MoE) 모델(OLMoE-1B-7B)의 경우, 경로 조건부 클러스터링(Route-conditional clustering)은 통계적으로 실제 신호를 회복하지만, 폐쇄 검증을 통과하지는 못했습니다. 즉, 절제 시 손실(Loss)이 개선되는 잘못된 방향을 보였습니다. 훈련 과정 전반에 걸쳐 폐쇄 검증을 확장했을 때, 어텐션 타겟 선택성(Attention-target selectivity)과 참여 비율(Participation ratio)은 양방향 모두에서 기능(Function)과 분리(Decouple)되었습니다. 우리는 저비용 신호는 회로의 제안(Proposal)일 뿐, 확인된 회로(Confirmed circuit)가 아니며, 폐쇄 검증(Closure)이 이 둘을 구분하는 기준이라고 결론짓습니다.

AI 자동 생성 콘텐츠

원문 바로가기

어텐션 헤드(Attention Heads)에서의 폐쇄 검증 기반 회로 발견: 공동 활성화는 제안하고, 절제는 결정한다

요약

핵심 포인트

댓글