arXiv논문2026. 05. 22. 20:19

Gated DeltaNet-2: 선형 어텐션 (Linear Attention)에서의 삭제와 쓰기 분리

요약

Gated DeltaNet-2는 선형 어텐션의 한계를 극복하기 위해 삭제와 쓰기 과정을 채널별 게이트로 분리한 새로운 모델입니다. 기존 KDA와 Gated DeltaNet을 일반화하여 긴 문맥 처리와 검색 성능을 획기적으로 개선했습니다.

핵심 포인트

삭제와 쓰기 역할을 분리하는 채널별 게이트 도입
KDA와 Gated DeltaNet을 아우르는 일반화된 구조
Mamba-2 및 KDA 대비 언어 모델링 및 추론 성능 우위
긴 문맥 RULER 및 다중 키 검색 벤치마크에서 탁월한 성능

선형 어텐션 (Linear attention)은 소프트맥스 어텐션 (softmax attention)의 무제한적인 캐시 (cache)를 고정된 크기의 순환 상태 (recurrent state)로 대체하여, 시퀀스 혼합 (sequence mixing)을 선형 시간으로 줄이고 디코딩 (decoding)을 상수 메모리로 줄입니다. 어려운 점은 단순히 무엇을 잊을 것인가뿐만 아니라, 기존의 연관 관계를 뒤섞지 않으면서 이 압축된 메모리를 어떻게 편집할 것인가입니다. 델타 규칙 (Delta-rule) 모델은 새로운 값을 쓰기 전에 현재 읽기 값을 뺍니다. 그리고 Kimi Delta Attention (KDA)은 채널별 감쇠 (channel-wise decay)를 통해 망각을 강화합니다. 하지만 능동적인 편집은 여전히 두 가지 서로 다른 것, 즉 키 (key) 측면에서 얼마나 오래된 콘텐츠를 삭제할 것인지와 값 (value) 측면에서 얼마나 새로운 콘텐츠를 반영할 것인지를 제어하기 위해 단일 스칼라 게이트 (scalar gate)를 사용합니다. 우리는 적응형 망각 (adaptive forgetting)과 채널별 감쇠 (channel-wise decay)를 상속받으면서도, 삭제와 쓰기 사이의 스칼라 결합이라는 공통된 한계를 해결함으로써 Gated DeltaNet과 KDA를 모두 일반화한 Gated DeltaNet-2를 소개합니다. Gated Delta Rule-2는 채널별 삭제 게이트 $b_t$와 채널별 쓰기 게이트 $w_t$를 통해 이러한 역할을 분리하며, 두 게이트가 동일한 스칼라로 수렴하면 KDA로, 감쇠 또한 수렴하면 Gated DeltaNet으로 축소됩니다. 우리는 빠른 가중치 업데이트 (fast-weight update) 관점, 채널별 감쇠가 비대칭 삭제 계수 (asymmetric erase factors)로 흡수된 청크 단위 (chunkwise) WY 알고리즘, 그리고 효율적인 병렬 훈련을 유지하는 게이트 인식 역전파 (gate-aware backward pass)를 도출합니다. 100B FineWeb-Edu 토큰으로 학습된 1.3B 파라미터 모델에서, Gated DeltaNet-2는 언어 모델링 (language modeling), 상식 추론 (commonsense reasoning), 검색 (retrieval) 전반에 걸쳐 Mamba-2, Gated DeltaNet, KDA 및 Mamba-3 변형 모델들 중 가장 강력한 종합 결과를 달성합니다. 이 모델의 장점은 긴 문맥 (long-context) RULER needle-in-a-haystack 벤치마크에서 가장 두드러지며, 평가된 다중 키 검색 (multi-key retrieval) 설정에서 성능을 향상시키고 순환 (recurrent) 및 하이브리드 (hybrid) 설정 모두에서 강력한 성능을 유지합니다. 코드는 https://github.com/NVlabs/GatedDeltaNet-2 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Gated DeltaNet-2: 선형 어텐션 (Linear Attention)에서의 삭제와 쓰기 분리

요약

핵심 포인트

댓글