
FlashMemory-DeepSeek-V4: Lookahead Sparse Attention을 통한 초장기 컨텍스트의 Lightning
요약
DeepSeek-V4 기반의 FlashMemory-DeepSeek-V4는 Lookahead Sparse Attention(LSA)을 통해 초장기 컨텍스트 서빙 시 발생하는 GPU 메모리 병목을 해결합니다. 분리형 학습 전략을 사용하여 백본 모델 없이도 인덱서를 독립적으로 학습할 수 있으며, KV 캐시 점유율을 획기적으로 낮추면서 성능을 유지합니다.
핵심 포인트
- Lookahead Sparse Attention(LSA)으로 필요한 KV 청크만 메모리에 보존
- 백본 모델이 필요 없는 분리형 학습(decoupled training) 전략 제안
- KV 캐시 점유율을 베이스라인 대비 약 13.5% 수준으로 압축
- 500K 극한 규모에서 KV 캐시 오버헤드를 90% 이상 억제
- LongBench-v2 등 주요 벤치마크에서 정확도 유지 및 향상 입증
기존의 LLM(Large Language Models)은 디코딩(decoding) 과정 동안 전체 KV 캐시(KV cache)를 로드된 상태로 유지하며, 이는 초장기 컨텍스트(ultra-long context) 서빙 시 심각한 GPU 메모리 병목 현상을 야기합니다. 본 보고서에서는 DeepSeek-V4 아키텍처를 기반으로 구축된 Neural Memory Indexer를 통해 구동되는 새로운 추론 패러다임인 Lookahead Sparse Attention (LSA)를 제안합니다. LSA는 모든 과거 토큰에 수동적으로 주의를 기울이는 대신, 미래의 컨텍스트 요구 사항을 선제적으로 예측하고 쿼리(query)에 중요한 KV 청크(chunks)만을 GPU 메모리에 보존합니다. 결정적으로, 우리는 백본(backbone)이 필요 없는 분리형 학습(decoupled training) 전략을 통해 이 아키텍처를 구현합니다. 인덱서(indexer)를 표준적인 이중 인코더(dual-encoder) 아키텍처로 공식화함으로써, 거대한 백본 모델을 GPU 메모리에 로드하지 않고도 표준 검색 학습(retrieval training) 프레임워크를 사용하여 독립적으로 학습할 수 있습니다. 우리는 이러한 "적을수록 많다(less is more)" 패러다임이 서빙 효율성을 크게 극대화하는 동시에, 장기적인 전역 메모리(global memory)에 의존하는 작업에서 효과적인 어텐션 디노이저(attention denoiser) 역할을 한다는 것을 입증합니다. 주요 장기 컨텍스트 평가 스위트(예: LongBench-v2, LongMemEval, RULER) 전반에 걸쳐, FM-DS-V4는 평균 물리적 KV 캐시 점유율을 전체 컨텍스트 베이스라인의 단 13.5%로 압축하면서도, 다운스트림 정확도를 일관되게 유지하거나 약간 향상시켰습니다(평균 +0.6% 절대 마진). 결정적으로, 500K의 극한 규모에서 FlashMemory는 백본의 핵심 추론 능력을 불안정하게 만들지 않으면서 물리적 KV 캐시 오버헤드를 90% 이상 억제합니다.
Paper : https://www.alphaxiv.org/abs/2606.09079
arxiv : https://arxiv.org/abs/2606.09079
Code : https://github.com/libertywing/FlashMemory-Deepseek-V4
HuggingFace : https://huggingface.co/libertywing/FlashMemory-Deepseek-V4
submitted by /u/pmttyji [link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기