FlashMemory-DeepSeek-V4: Lookahead Sparse Attention을 통한 초장기 컨텍스트의 Lightning

기존의 LLM(Large Language Models)은 디코딩(decoding) 과정 동안 전체 KV 캐시(KV cache)를 로드된 상태로 유지하며, 이는 초장기 컨텍스트(ultra-long context) 서빙 시 심각한 GPU 메모리 병목 현상을 야기합니다. 본 보고서에서는 DeepSeek-V4 아키텍처를 기반으로 구축된 Neural Memory Indexer를 통해 구동되는 새로운 추론 패러다임인 Lookahead Sparse Attention (LSA)를 제안합니다. LSA는 모든 과거 토큰에 수동적으로 주의를 기울이는 대신, 미래의 컨텍스트 요구 사항을 선제적으로 예측하고 쿼리(query)에 중요한 KV 청크(chunks)만을 GPU 메모리에 보존합니다. 결정적으로, 우리는 백본(backbone)이 필요 없는 분리형 학습(decoupled training) 전략을 통해 이 아키텍처를 구현합니다. 인덱서(indexer)를 표준적인 이중 인코더(dual-encoder) 아키텍처로 공식화함으로써, 거대한 백본 모델을 GPU 메모리에 로드하지 않고도 표준 검색 학습(retrieval training) 프레임워크를 사용하여 독립적으로 학습할 수 있습니다. 우리는 이러한 "적을수록 많다(less is more)" 패러다임이 서빙 효율성을 크게 극대화하는 동시에, 장기적인 전역 메모리(global memory)에 의존하는 작업에서 효과적인 어텐션 디노이저(attention denoiser) 역할을 한다는 것을 입증합니다. 주요 장기 컨텍스트 평가 스위트(예: LongBench-v2, LongMemEval, RULER) 전반에 걸쳐, FM-DS-V4는 평균 물리적 KV 캐시 점유율을 전체 컨텍스트 베이스라인의 단 13.5%로 압축하면서도, 다운스트림 정확도를 일관되게 유지하거나 약간 향상시켰습니다(평균 +0.6% 절대 마진). 결정적으로, 500K의 극한 규모에서 FlashMemory는 백본의 핵심 추론 능력을 불안정하게 만들지 않으면서 물리적 KV 캐시 오버헤드를 90% 이상 억제합니다.

Paper : https://www.alphaxiv.org/abs/2606.09079
arxiv : https://arxiv.org/abs/2606.09079
Code : https://github.com/libertywing/FlashMemory-Deepseek-V4
HuggingFace : https://huggingface.co/libertywing/FlashMemory-Deepseek-V4
submitted by /u/pmttyji [link] [comments]

Insights

FlashMemory-DeepSeek-V4: Lookahead Sparse Attention을 통한 초장기 컨텍스트의 Lightning

요약

핵심 포인트

댓글

BSF, 배양 가죽의 미국 시장 진출을 위한 합작 투자 발표로 주가 56% 급등

Microsoft 실적 발표의 3가지 주요 시사점

화물 시장 업데이트: 공급 능력이 부족한 5가지 신호

연방준비제도(Fed)가 56년 만에 전례 없는 조치를 취했습니다 — 이는 주식 시장에 중대한 시사점을 갖습니다

BSF, 배양 가죽의 미국 시장 진출을 위한 합작 투자 발표로 주가 56% 급등

Microsoft 실적 발표의 3가지 주요 시사점

화물 시장 업데이트: 공급 능력이 부족한 5가지 신호

연방준비제도(Fed)가 56년 만에 전례 없는 조치를 취했습니다 — 이는 주식 시장에 중대한 시사점을 갖습니다