예측, 재사용 및 복구: 긴 문맥 LLM 디코딩을 위한 동적 희소 어텐션 (Dynamic Sparse Attention) 가속화
요약
긴 문맥 LLM 디코딩 시 발생하는 동적 희소 어텐션(DSA)의 지연 시간 문제를 해결하기 위해 PRR 런타임을 제안합니다. 예측, 재사용, 복구 메커니즘을 통해 정확도를 유지하면서 디코딩 지연 시간을 최대 40% 단축했습니다.
핵심 포인트
- DSA의 선택-어텐션 간 직렬화 의존성으로 인한 병목 현상 해결
- EMA 기반 예측기를 통한 높은 확률의 KV 블록 예측 및 추측 실행
- FlashAttention 기반 복구 커널로 누락된 블록을 점진적으로 통합
- 다운스트림 작업의 정확도 손실 없이 토큰당 지연 시간 최대 40% 감소
동적 희소 어텐션 (Dynamic Sparse Attention, DSA)은 각 쿼리(query)와 관련된 상위 K개의 KV 블록에만 어텐션(attention)을 수행함으로써 긴 문맥의 LLM 디코딩을 가속화하지만, 선택(selection)에서 어텐션으로 이어지는 직렬화된 의존성을 유발하여 새로운 지연 시간 병목 현상(latency bottleneck)을 발생시킵니다. 우리는 DSA 선택 과정의 시간적 지역성(temporal locality)을 활용하여 가능성이 높은 블록을 예측하고, 선택이 진행되는 동안 해당 블록들에 대한 어텐션을 추측 실행(speculate)하며, 실제 선택된 집합이 확인되면 누락된 블록을 점진적으로 복구(repair)하는 추측-재사용-복구(speculate-reuse-repair) 런타임인 PRR을 제안합니다. PRR은 경량 EMA 기반 예측기(EMA-based predictor), 추측 작업이 임계 경로(critical path)를 벗어나도록 유지하는 프로파일링 가이드 추측 예산(profiling-guided speculation budget), 그리고 온라인 소프트맥스(online-softmax) 통계량을 사용하여 누락된 블록을 부분 어텐션 상태(partial attention state)로 통합하는 FlashAttention 기반 복구 커널을 사용합니다. 긴 문맥 벤치마크와 대표적인 DSA 방법론 전반에 걸쳐, PRR은 다운스트림 작업(downstream task)의 정확도를 유지하면서 토큰당 디코딩 지연 시간을 최대 40%까지 줄입니다. Github: https://github.com/Tianyu9748/Incremental_FlashAttention
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기