본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 12:50

Attention은 단지 결합(Coupling)의 또 다른 이름인가?: 계층적 사전 학습(Hierarchical Pretraining)에 대한

요약

본 논문은 인과적 셀프 어텐션의 결합 메커니즘을 보완하기 위해, 서로 다른 타임스케일을 가진 '빠른 경로'와 '느린 경로'를 결합한 계층적 사전 학습 구조를 제안합니다. 상미분 방정식(ODE) 이론을 바탕으로 두 경로 간의 상호작용을 수학적으로 정립하고 구현했습니다.

핵심 포인트

  • 인과적 어텐션과 다운샘플링된 풀 어텐션을 결합한 fast-slow ODE 형식론 제안
  • 느린 하위 시스템을 통해 타임스케일이 다른 정보 결합 가능성 탐구
  • 빠른 역학의 선형 생성기 가정 하에 평형 다양체와 마스터 방정식 간의 관계 증명
  • 실험 결과, 500k 토큰 범위 내에서는 기존 모델과 성능 차이가 미미함을 확인

인과적 셀프 어텐션(Causal self-attention)은 결합(coupling) 메커니즘입니다. 즉, 각 토큰의 은닉 상태(hidden state)는 동일한 타임스케일(timescale)에서 이전 토큰들의 학습된 혼합(mixture)에 의해 업데이트됩니다. 본 논문은 두 번째의, 시간적으로 더 느린 결합—시퀀스의 시간적으로 다운샘플링된(temporally-downsampled) 뷰에서 작동하며 제로 초기화된 게이트(zero-initialised gate)를 통해 빠른 경로(fast path)로 피드백되는 느린 하위 시스템(slow sub-system)—이 이를 보완할 수 있는지 질문합니다. 이 질문은 특이 섭동 상미분 방정식(singularly perturbed ordinary differential equations (ODEs))의 언어로 구성됩니다. 여기서 빠른 변수 $x$는 토큰 속도로 진화하고, 느린 변수 $y$는 $P$개 토큰당 한 번의 업데이트로 진화하며, 타임스케일 비율 $\varepsilon = 1/P$는 인과적 블록 평균 풀링(causal block-mean pooling)에 의해 구조적으로 강제됩니다. 본 논문은 fast-slow ODE 형식론을 구체적인 신경망으로 구현합니다: $T$개 토큰에 대한 표준 인과적 어텐션(causal attention)의 빠른 경로(fast path), $T/P$개의 풀링된 토큰에 대한 풀 어텐션(full attention)의 느린 경로(slow path) (레이어당 $P^2$배 더 저렴함), 그리고 제로 초기화된 가산 게이트(additive gate)입니다. 또한, 빠른 역학(fast dynamics)에 대한 선형 생성기(linear-generator) 가정 하에, 우리는 평형 다양체(equilibrium manifold) $x = \phi(y)$가 정확히 마스터 방정식(master-equation (ME)) 정상 분포(stationary distribution) $p_{\mathrm{st}}(y)$임을 증명합니다. 해당 영역에서 학습된 MLP $\phi_\theta(y)$는 그것의 변분 근사(variational approximation)입니다 (학습된 블록은 생성기가 아니므로, 이 항등식은 구조적 극한(structured limit)을 의미하며 학습된 네트워크 자체에 대한 주장은 아닙니다). 경험적으로, $500$k 토큰에서 결합(coupling)은 중립적입니다. 즉, 게이트가 닫힌 상태를 유지하며, 결합된 모델(coupled)과 동결된 절제 모델(frozen ablations)이 실행 간 노이즈 범위 내에 있습니다. 이는 밀집형 베이스라인(dense baseline)과 유사한 실제 시간 비용(wall-clock cost)으로 수행되었습니다. 본 논문의 기여는 성능 향상이 아니라, 정밀하고 간극이 명확히 표시된 매핑(mapping) 그 자체입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0