본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 15:31

Kwai Summary Attention 기술 보고서

요약

긴 컨텍스트 처리는 LLM의 핵심 과제이지만, 표준 어텐션 메커니즘은 시퀀스 길이에 따라 2차 시간 복잡도로 인해 메모리 및 계산 비용이 급증하는 문제가 있습니다. 기존 해결책들은 KV 캐시를 줄이거나 로컬 주의에 의존하지만, 이는 성능과 효율성 사이의 트레이드오프가 존재합니다. 본 보고서는 이 간극을 메우기 위해, 컨텍스트를 학습 가능한 요약 토큰으로 압축하여 시퀀스 모델링 비용을 낮추는 새로운 'Kwai Summary Attention (KSA)' 메커니즘을 제안합니다.

핵심 포인트

  • 표준 어텐션의 2차 시간 복잡도는 긴 문맥 처리의 주요 병목 현상입니다.
  • 기존 효율화 방법(GQA, MLA 등)은 KV 캐시가 시퀀스 길이에 선형적으로 의존하는 문제를 완전히 해결하지 못합니다.
  • KSA는 컨텍스트를 학습 가능한 요약 토큰으로 압축하여 모델링 비용을 줄이는 새로운 접근 방식을 제시합니다.
  • 이 방식은 메모리 절감과 더불어 먼 의존성에 대한 완전한 참조 및 해석 가능성을 유지하려 합니다.

긴 문맥 처리 능력은 차세대 대규모 언어 모델의 가장 중요한 발전 방향 중 하나로 부상했으며, 특히 의미 이해/추론, 코드 에이전트 지능 및 추천 시스템 분야에서 중요합니다. 그러나 표준 Softmax 주의 메커니즘은 시퀀스 길이에 대해 2 차 시간 복잡도를 보입니다. 시퀀스 길이가 증가함에 따라 긴 문맥 환경에서 상당한 오버헤드가 발생하여 매우 긴 시퀀스의 학습 및 추론 비용이 급격히 악화됩니다. 기존 솔루션은 두 가지 기술 경로를 통해 이 문제를 완화합니다: i) 각 레이어당 KV 캐시를 줄이는 방법, 예를 들어 헤드 레벨 압축인 GQA 와 임베딩 차원 레벨 압축인 MLA 가 있지만, KV 캐시는 여전히 시퀀스 길이에 대해 1:1 비율로 선형적으로 의존합니다. ii) 로컬 주의 SWA, 선형 커널 GDN 과 같은 KV 캐시에 친화적인 아키텍처와 교차하는 방법이지만, 종종 KV 캐시와 긴 문맥 모델링 효과 사이에서 타협점을 요구합니다. 이 두 가지 기술 경로 외에도 우리는 잘 탐구되지 않은 중간 경로의 존재를 주장합니다: {KV 캐시와 시퀀스 길이의 선형 관계를 유지하되, 특정 비율 $k$ 를 통해 의미 수준의 압축을 수행하는 것}. 이 $O(n/k)$ 경로는 "최소 KV 캐시"를 추구하지는 않지만, 대신 수용 가능한 메모리 비용을 지불하여 먼 의존성에 대한 완전한 참조 및 해석 가능한 보존을 달성합니다. 이에 영감을 받아 우리는 역사적 문맥을 학습 가능한 요약 토큰으로 압축함으로써 시퀀스 모델링 비용을 줄이는 새로운 주의 메커니즘인 Kwai Summary Attention (KSA) 을 제안합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0