WaveFilter: 웨이브릿 가이드 KV 캐시 필터링을 통한 Diffusion LLM의 긴 문맥 능력 향상
요약
WaveFilter는 Diffusion LLM의 긴 문맥 처리 시 발생하는 계산 오버헤드와 지연 시간을 해결하기 위한 새로운 캐싱 프레임워크입니다. 웨이브릿 변환을 활용해 핵심 토큰을 정밀하게 식별하고 희소 KV 캐시를 구축하여 성능을 높입니다.
핵심 포인트
- 웨이브릿 변환을 통한 핵심 토큰 식별 기술 도입
- 별도의 추가 학습이 필요 없는 training-free 방식
- Diffusion LLM의 긴 문맥 작업 성능 및 효율성 개선
- 플러그 앤 플레이 방식의 범용적 프레임워크
Diffusion Large Language Models (DLMs)는 다양한 작업에서 상당한 이점을 입증해 왔습니다. 그러나 다단계 반복 추론 메커니즘 (multi-step iterative inference mechanism)의 제약으로 인해, 긴 문맥 (long-context) 작업에서의 계산 오버헤드와 추론 지연 시간 (inference latency)은 대규모 배포를 제한하는 핵심 병목 현상이 되었습니다. 긴 시퀀스를 처리할 때, 기존의 Key-Value (KV) 캐싱 메커니즘은 생성 품질이 급격히 저하되는 딜레마에 직면하는 경우가 많으며, 그 핵심 과제는 초장문 문맥 내에서 중요한 토큰을 정확하고 효율적으로 필터링하는 데 있습니다. 인간의 독서 과정에서 영감을 얻어, 우리는 범용적이고 별도의 학습이 필요 없는 (training-free) 캐싱 프레임워크인 \textbf{WaveFilter}를 제안합니다. 이 프레임워크는 긴 시퀀스의 분해를 위해 웨이브릿 변환 (wavelet transform)을 혁신적으로 도입하여 핵심 토큰을 정밀하게 식별하며, 이를 기반으로 희소 KV 캐시 (sparse KV Cache)를 구축하여 최종 문맥 표현 (contextual representation)을 계산합니다. 실험 결과에 따르면, 플러그 앤 플레이 (plug-and-play) 방식의 범용 프레임워크인 WaveFilter는 복잡한 긴 문맥 작업에서 기존의 주류 KV 캐시 방법들의 성능을 크게 향상시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기