arXiv논문2026. 06. 10. 11:11

Express 언어 모델링 (Express Language Modeling)

요약

비인과적 어텐션 근사를 인과적 근사로 변환하는 새로운 도구인 Express를 소개합니다. Thinformer와 결합하여 메모리 효율성을 높이면서도 기존보다 개선된 근사 오차 성능을 제공하며, 긴 문맥 처리 시 발생하는 주요 병목 현상들을 해결합니다.

핵심 포인트

비인과적 어텐션을 인과적 근사로 변환하는 Express 도구 제안
기존 인과적 어텐션 보장 성능을 개선한 낮은 근사 오차 달성
Triton 구현을 통해 FlashAttention 2 대비 상당한 속도 향상 입증
긴 문맥 프리필 및 KV 캐시 압축 등 4가지 리소스 병목 해결

우리는 비인과적 어텐션 근사 (non-causal attention approximation)를 동일한 근사 보장 (approximation guarantees)을 가진 인과적 근사 (causal approximation)로 변환하기 위한 새로운 도구인 Express를 소개합니다. 최첨단 Thinformer 근사와 결합했을 때, Express는 기존에 알려진 최선의 인과적 어텐션 보장 성능을 개선하여, 길이 $n$인 시퀀스에 대해 단 $O(s)$의 메모리와 $O(s^2 ext{log}^2(n))$의 압축 오버헤드(compression overhead)만으로 $\log^{3/2}(n)/s$의 근사 오차를 제공합니다. 우리는 이러한 발전 사항을 효율적인 I/O 인식 Triton 구현과 결합하여 FlashAttention 2 대비 상당한 속도 향상을 입증하였으며, Express를 사용하여 언어 모델링 파이프라인의 네 가지 리소스 병목 현상인 긴 문맥 프리필 (long-context prefill), KV 캐시 압축 (KV cache compression), 긴 형식의 메모리 제한 디코딩 (long-form memory-constrained decoding), 그리고 긴 형식의 연산 제한 디코딩 (long-form compute-constrained decoding)을 극복합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Express 언어 모델링 (Express Language Modeling)

요약

핵심 포인트

댓글