arXiv논문2026. 06. 02. 13:03

어텐션 회로(Attention Circuits)는 언제 형성되는가? 세 가지 1B급 아키텍처 전반에 걸친 능력 및 어텐션

요약

1B급 언어 모델들을 대상으로 어텐션 헤드 회로가 형성되는 발달 궤적을 분석한 연구입니다. Pythia, OLMo, OLMoE 모델을 통해 유도, 이전 토큰, BOS-어트랙터 헤드의 출현 과정을 추적했습니다.

핵심 포인트

BOS-어트랙터 형성은 모델마다 점진적 상승 또는 급격한 상전이 양상을 보임
유도 회로 형성은 BOS-어트랙터 형성보다 토큰 수 기준 10~20배 앞서 발생
능력 회로와 어텐션 싱크 형성은 별개의 두 가지 전환 과정임
최종 모델이 아니더라도 학습 초기 단계에서 회로 식별이 가능함

우리는 두 가지 아키텍처 계열(dense transformer, mixture-of-experts)과 두 가지 사전 학습 코퍼스(The Pile, DCLM)에 걸친 세 가지 1B급 언어 모델인 Pythia 1B, OLMo 1B-0724-hf, OLMoE 1B-7B-0924를 통해 어텐션 헤드 회로(attention-head circuit) 형성의 발달 궤적을 추적합니다. 모델당 10개의 로그 간격(log-spaced) 수정 단계(총 30회의 기계론적 해석 가능성(mechanistic-interpretability) 실행)마다, 우리는 참여 비율(participation-ratio, PR) 스펙트럼 신호와 모든 헤드 대상 능력 특화 선택성 스크리닝(all-head capability-specific selectivity screen)을 적용하여 유도(induction), 이전 토큰(previous-token), 그리고 BOS-어트랙터(BOS-attractor) 헤드가 출현하는 과정을 추적합니다.

다섯 가지 발견 사항:
(F1) 모든 모델의 모든 수정 단계에서 레이어 0과 1은 BOS로 분류된 헤드를 전혀 생성하지 않습니다. 즉, L0/L1의 zero-BOS 하한선은 학습된 결과가 아니라 아키텍처적 특성입니다.
(F2) 전체 모델의 BOS-어트랙터 비율은 세 가지 뚜렷한 출현 형태를 따릅니다. Pythia 1B에서는 점진적인 상승(gradual ramp), OLMo 1B에서는 급격한 상전이(sharp phase transition, 인접한 체크포인트 사이에서 7%에서 70%로 급증), 그리고 OLMoE 1B-7B에서는 점진적인 상승 형태를 보입니다.
(F3) DCLM 모델에서 유도 회로(induction-circuit) 형성은 BOS-어트랙터 형성보다 토큰 수 기준으로 1020배 앞서 나타납니다. 즉, 능력 회로(capability-circuit) 형성과 어텐션 싱크(attention-sink) 형성은 하나의 전환이 아닌 두 개의 별도 전환입니다.
(F4) 능력 특화 스크리닝은 전체 학습 토큰의 0.32% 이내에서 최종 유도 회로로 수렴합니다. 이는 회로 식별을 위해 반드시 최종 모델이 필요하지는 않음을 의미합니다.
(F5) 세 모델 모두에서 샘플링된 모든 최종 체크포인트 유도 헤드에 대해, 해당 헤드가 자신의 능력 선택성 임계값(capability-selectivity threshold)을 넘어서는 첫 번째 수정 단계 또는 그 이전 단계에서 헤드별 PR이 상승합니다.

이 결과는 유도 상전이(induction-phase-transition) 프레임워크를 정교화합니다. DCLM으로 학습된 1B급 모델에서 유도 전환(induction transition)과 어텐션 싱크 전환(attention-sink transition)은 토큰 수 기준으로 한 자릿수(order of magnitude) 차이가 나며 질적으로 다른 형태를 가집니다.

AI 자동 생성 콘텐츠

원문 바로가기

어텐션 회로(Attention Circuits)는 언제 형성되는가? 세 가지 1B급 아키텍처 전반에 걸친 능력 및 어텐션

요약

핵심 포인트

댓글