arXiv논문2026. 06. 09. 11:50

경직된 방식에서 동적인 방식으로: 긴 문맥 LLM을 위한 엔트로피 가이드 적응형 추론

요약

EntropyInfer는 긴 문맥 LLM 추론 시 어텐션 헤드의 엔트로피 패턴을 분석하여 연산량을 적응적으로 할당하는 프레임워크입니다. 경직된 헤드와 동적 헤드의 차이를 활용해 KV 캐시 압축 및 효율적인 연산 할당을 수행합니다.

핵심 포인트

어텐션 헤드의 엔트로피 패턴(Rigid vs Dynamic) 분석
훈련이 필요 없는 적응형 연산량 할당 프레임워크 제안
Llama, Qwen 등 주요 모델에서 100k 토큰 이상 시 최대 2.39배 속도 향상
Full attention 대비 품질 저하를 최소화하며 성능 최적화

긴 문맥 LLM (Long-context LLM) 추론을 위한 기존의 희소 어텐션 (Sparse attention) 및 KV 캐시 압축 방법들은 일반적으로 모든 어텐션 헤드 (Attention heads)에 대해 고정된 희소성 패턴 (Sparsity patterns)이나 균등한 예산 (Uniform budgets)을 적용하며, 헤드와 문맥 간의 어텐션 동작에서 나타나는 상당한 차이를 간과합니다. 우리는 어텐션 헤드 사이에서 두 가지 뚜렷한 엔트로피 패턴을 관찰했습니다: 입력 세그먼트(Segments) 전반에 걸쳐 엔트로피가 0에 가깝게 유지되는 경직된 헤드 (Rigid Heads), 그리고 엔트로피가 크게 변동하는 동적 헤드 (Dynamic Heads)입니다. 결정적으로, 이러한 유형의 분포는 문맥에 따라 달라지며 오프라인에서 미리 결정될 수 없습니다. 따라서 우리는 프리필링 (Prefilling) 단계에서 개별 헤드 및 세그먼트 단위의 세밀함으로 연산량을 적응적으로 할당하기 위해 어텐션 엔트로피를 사용하는 훈련이 필요 없는 프레임워크인 EntropyInfer를 제안합니다. 디코딩 (Decoding)을 위해, 우리는 프리필 토큰뿐만 아니라 생성된 출력 토큰을 활용하여 가장 중요한 캐시 항목을 식별하고 유지하는 잠재적 KV 캐시 압축 기법을 도입합니다. Llama, Qwen 및 openPangu 모델 시리즈에 대한 광범위한 실험 결과, EntropyInfer는 SnapKV, AdaKV, CritiPrefill을 포함한 베이스라인 모델들을 일관되게 능가하며, 전체 어텐션 (Full attention) 대비 품질 저하를 최소화하면서 100k 토큰 이상에서 최대 2.39배의 엔드 투 엔드 (End-to-end) 속도 향상을 달성했습니다. 코드는 https://github.com/SHA-4096/EntropyInfer에 공개되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

경직된 방식에서 동적인 방식으로: 긴 문맥 LLM을 위한 엔트로피 가이드 적응형 추론

요약

핵심 포인트

댓글