arXiv논문2026. 04. 28. 15:31

Kwai Summary Attention 기술 보고서

요약

긴 컨텍스트 처리는 LLM의 핵심 과제이지만, 표준 어텐션 메커니즘은 시퀀스 길이에 따라 2차 시간 복잡도로 인해 메모리 및 계산 비용이 급증하는 문제가 있습니다. 기존 해결책들은 KV 캐시를 줄이거나 로컬 주의에 의존하지만, 이는 성능과 효율성 사이의 트레이드오프가 존재합니다. 본 보고서는 이 간극을 메우기 위해, 컨텍스트를 학습 가능한 요약 토큰으로 압축하여 시퀀스 모델링 비용을 낮추는 새로운 'Kwai Summary Attention (KSA)' 메커니즘을 제안합니다.

핵심 포인트

표준 어텐션의 2차 시간 복잡도는 긴 문맥 처리의 주요 병목 현상입니다.
기존 효율화 방법(GQA, MLA 등)은 KV 캐시가 시퀀스 길이에 선형적으로 의존하는 문제를 완전히 해결하지 못합니다.
KSA는 컨텍스트를 학습 가능한 요약 토큰으로 압축하여 모델링 비용을 줄이는 새로운 접근 방식을 제시합니다.
이 방식은 메모리 절감과 더불어 먼 의존성에 대한 완전한 참조 및 해석 가능성을 유지하려 합니다.

긴 문맥 처리 능력은 차세대 대규모 언어 모델의 가장 중요한 발전 방향 중 하나로 부상했으며, 특히 의미 이해/추론, 코드 에이전트 지능 및 추천 시스템 분야에서 중요합니다. 그러나 표준 Softmax 주의 메커니즘은 시퀀스 길이에 대해 2 차 시간 복잡도를 보입니다. 시퀀스 길이가 증가함에 따라 긴 문맥 환경에서 상당한 오버헤드가 발생하여 매우 긴 시퀀스의 학습 및 추론 비용이 급격히 악화됩니다. 기존 솔루션은 두 가지 기술 경로를 통해 이 문제를 완화합니다: i) 각 레이어당 KV 캐시를 줄이는 방법, 예를 들어 헤드 레벨 압축인 GQA 와 임베딩 차원 레벨 압축인 MLA 가 있지만, KV 캐시는 여전히 시퀀스 길이에 대해 1:1 비율로 선형적으로 의존합니다. ii) 로컬 주의 SWA, 선형 커널 GDN 과 같은 KV 캐시에 친화적인 아키텍처와 교차하는 방법이지만, 종종 KV 캐시와 긴 문맥 모델링 효과 사이에서 타협점을 요구합니다. 이 두 가지 기술 경로 외에도 우리는 잘 탐구되지 않은 중간 경로의 존재를 주장합니다: {KV 캐시와 시퀀스 길이의 선형 관계를 유지하되, 특정 비율 $k$ 를 통해 의미 수준의 압축을 수행하는 것}. 이 $O(n/k)$ 경로는 "최소 KV 캐시"를 추구하지는 않지만, 대신 수용 가능한 메모리 비용을 지불하여 먼 의존성에 대한 완전한 참조 및 해석 가능한 보존을 달성합니다. 이에 영감을 받아 우리는 역사적 문맥을 학습 가능한 요약 토큰으로 압축함으로써 시퀀스 모델링 비용을 줄이는 새로운 주의 메커니즘인 Kwai Summary Attention (KSA) 을 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Kwai Summary Attention 기술 보고서

요약

핵심 포인트

댓글