본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 13:29

OSDN: Linear Attention에서 증명 가능한 온라인 전처리(Online Preconditioning)를 통한 Delta Rule의

요약

본 논문은 Linear Attention 및 State-Space Models의 한계인 문맥 내 연상 회상 능력을 개선하기 위해 Online Scaled DeltaNet (OSDN)을 제안합니다. OSDN은 하이퍼그레이디언트 피드백을 통해 온라인으로 업데이트되는 대각 전처리 도구(diagonal preconditioner)를 도입하여 기존 DeltaNet의 스칼라 게이트 한계를 극복했습니다. 이 방법론은 고차원 상태 오버헤드를 발생시키지 않으면서 DeltaNet의 하드웨어 친화적인 병렬 파이프라인을 유지하며, 이론적으로 우측 뉴턴 비교 대상에 대한 초기하 수렴과 토큰 로컬 잔차 수축 경계를 증명합니다. 실험 결과, OSDN은 다양한 규모에서 DeltaNet 대비 in-context recall 성능을 크게 향상시키고 회상 잔차 비율을 감소시키는 강력한 효과를 입증했습니다.

핵심 포인트

  • OSDN은 Linear Attention 및 State-Space Models의 문맥 내 연상 회상(in-context associative recall) 문제를 해결하기 위해 제안되었습니다.
  • 하이퍼그레이디언트 피드백 기반의 온라인 대각 전처리 도구(diagonal preconditioner)를 도입하여 기존 DeltaNet의 스칼라 게이트 한계를 보강했습니다.
  • OSDN은 고차원 상태 오버헤드를 발생시키지 않으면서 하드웨어 친화적인 병렬 파이프라인을 유지할 수 있습니다.
  • 이론적으로 우측 뉴턴 비교 대상에 대해 초기하 수렴(super-geometric convergence)과 토큰 로컬 잔차 수축 경계를 증명했습니다.
  • 실험적으로 OSDN은 DeltaNet 대비 in-context recall 성능을 최대 32% 향상시키고, 회상 잔차 비율을 39% 감소시키는 효과를 보였습니다.

Linear attention (선형 어텐션) 및 state-space models (상태 공간 모델)는 softmax attention (소프트맥스 어텐션)의 대안으로 일정한 메모리 사용량을 제공하지만, in-context associative recall (문맥 내 연상 회상) 능력에서 종종 어려움을 겪습니다. Delta Rule (델타 규칙)은 각 토큰을 온라인 gradient descent (경사 하강법)의 한 단계로 기록함으로써 이 문제를 완화합니다. 그러나 Delta Rule의 step size (단계 크기)는 내부 목적 함수의 feature-wise curvature (특징별 곡률)를 무시하는 단일 스칼라 게이트 (scalar gate)에 의존합니다. 본 논문에서는 hypergradient feedback (하이퍼그레이디언트 피드백)을 통해 온라인으로 업데이트되는 diagonal preconditioner (대각 전처리 도구)로 스칼라 게이트를 보강한 Online Scaled DeltaNet (OSDN)을 제안합니다. 결정적으로, 이러한 right-preconditioning (우측 전처리)은 대수적으로 write-side key (쓰기 측 키)의 per-feature scaling (특징별 스케일링)과 동일합니다. 이러한 등가성 덕분에 OSDN은 고차원 state overhead (상태 오버헤드)를 발생시키지 않으면서 DeltaNet의 하드웨어 친화적인 chunkwise parallel pipeline (청크 단위 병렬 파이프라인)을 엄격하게 보존할 수 있습니다. 이론적으로, 내부 regression loss (회귀 손실)의 exact-quadratic structure (정확한 이차 구조)를 활용하여, 우리는 right-Newton comparator (우측 뉴턴 비교 대상)에 대해 super-geometric convergence (초기하 수렴)를 확립하고 알고리즘과 일치하는 token-local residual contraction bound (토큰 로컬 잔차 수축 경계)를 증명합니다. 비정상적(non-stationary) 문맥을 처리하기 위해, 우리는 오래된 보정(calibration)을 동적으로 갱신하는 Adaptive Preconditioner Forgetting (APF, 적응형 전처리 망각)을 추가로 도입합니다. 실험적으로 OSDN은 다양한 규모에서 강력한 성능을 입증합니다. 340M 파라미터 규모에서 OSDN은 DeltaNet 대비 JRT 스타일의 in-context recall (문맥 내 회상)을 32% 향상시킵니다. 1.3B 파라미터로 확장했을 때, 일반적인 downstream tasks (하위 작업, 예: perplexity 및 LongBench)에서는 대등한 성능을 유지하면서 recall residual ratio (회상 잔차 비율)를 39% 감소시켰습니다. 이는 우리의 online-preconditioning (온라인 전처리) 메커니즘이 1B(10억) 파라미터 규모에서도 효과적으로 전이되고 증폭됨을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0