FlashMemory-DeepSeek-V4

요약

Lookahead Sparse Attention을 적용하여 500K 컨텍스트 길이에서 KV 캐시를 90% 이상 절감하는 기술이 소개되었습니다. 이 방법은 모델 크기를 단지 13.5%로 압축하면서도 RULER, LongBench-v2, 그리고 LongMemEval 등 주요 평가 지표에서의 정확도를 유지하거나 개선함을 보여줍니다.

핵심 포인트

Lookahead Sparse Attention 사용
500K 컨텍스트 길이에서 KV 캐시 90% 이상 절감
모델 크기 13.5%로 압축 가능
주요 평가 지표 정확도 유지/개선

Lookahead Sparse Attention을 사용하면 500K 컨텍스트 길이에서 KV 캐시를 90% 이상 절감하여, 전체 크기의 단지 13.5%로 압축하면서도 RULER, LongBench-v2, 그리고 LongMemEval에서의 정확도를 유지하거나 개선합니다. https://t.co/62WiarmR72

AI 자동 생성 콘텐츠

원문 바로가기

FlashMemory-DeepSeek-V4

요약

핵심 포인트

댓글