arXiv논문2026. 06. 16. 12:50

Attention은 단지 결합(Coupling)의 또 다른 이름인가?: 계층적 사전 학습(Hierarchical Pretraining)에 대한

요약

본 논문은 인과적 셀프 어텐션의 결합 메커니즘을 보완하기 위해, 서로 다른 타임스케일을 가진 '빠른 경로'와 '느린 경로'를 결합한 계층적 사전 학습 구조를 제안합니다. 상미분 방정식(ODE) 이론을 바탕으로 두 경로 간의 상호작용을 수학적으로 정립하고 구현했습니다.

핵심 포인트

인과적 어텐션과 다운샘플링된 풀 어텐션을 결합한 fast-slow ODE 형식론 제안
느린 하위 시스템을 통해 타임스케일이 다른 정보 결합 가능성 탐구
빠른 역학의 선형 생성기 가정 하에 평형 다양체와 마스터 방정식 간의 관계 증명
실험 결과, 500k 토큰 범위 내에서는 기존 모델과 성능 차이가 미미함을 확인

인과적 셀프 어텐션(Causal self-attention)은 결합(coupling) 메커니즘입니다. 즉, 각 토큰의 은닉 상태(hidden state)는 동일한 타임스케일(timescale)에서 이전 토큰들의 학습된 혼합(mixture)에 의해 업데이트됩니다. 본 논문은 두 번째의, 시간적으로 더 느린 결합—시퀀스의 시간적으로 다운샘플링된(temporally-downsampled) 뷰에서 작동하며 제로 초기화된 게이트(zero-initialised gate)를 통해 빠른 경로(fast path)로 피드백되는 느린 하위 시스템(slow sub-system)—이 이를 보완할 수 있는지 질문합니다. 이 질문은 특이 섭동 상미분 방정식(singularly perturbed ordinary differential equations (ODEs))의 언어로 구성됩니다. 여기서 빠른 변수 $x$는 토큰 속도로 진화하고, 느린 변수 $y$는 $P$개 토큰당 한 번의 업데이트로 진화하며, 타임스케일 비율 $\varepsilon = 1/P$는 인과적 블록 평균 풀링(causal block-mean pooling)에 의해 구조적으로 강제됩니다. 본 논문은 fast-slow ODE 형식론을 구체적인 신경망으로 구현합니다: $T$개 토큰에 대한 표준 인과적 어텐션(causal attention)의 빠른 경로(fast path), $T/P$개의 풀링된 토큰에 대한 풀 어텐션(full attention)의 느린 경로(slow path) (레이어당 $P^2$배 더 저렴함), 그리고 제로 초기화된 가산 게이트(additive gate)입니다. 또한, 빠른 역학(fast dynamics)에 대한 선형 생성기(linear-generator) 가정 하에, 우리는 평형 다양체(equilibrium manifold) $x = \phi(y)$가 정확히 마스터 방정식(master-equation (ME)) 정상 분포(stationary distribution) $p_{\mathrm{st}}(y)$임을 증명합니다. 해당 영역에서 학습된 MLP $\phi_\theta(y)$는 그것의 변분 근사(variational approximation)입니다 (학습된 블록은 생성기가 아니므로, 이 항등식은 구조적 극한(structured limit)을 의미하며 학습된 네트워크 자체에 대한 주장은 아닙니다). 경험적으로, $500$k 토큰에서 결합(coupling)은 중립적입니다. 즉, 게이트가 닫힌 상태를 유지하며, 결합된 모델(coupled)과 동결된 절제 모델(frozen ablations)이 실행 간 노이즈 범위 내에 있습니다. 이는 밀집형 베이스라인(dense baseline)과 유사한 실제 시간 비용(wall-clock cost)으로 수행되었습니다. 본 논문의 기여는 성능 향상이 아니라, 정밀하고 간극이 명확히 표시된 매핑(mapping) 그 자체입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Attention은 단지 결합(Coupling)의 또 다른 이름인가?: 계층적 사전 학습(Hierarchical Pretraining)에 대한

요약

핵심 포인트

댓글