arXiv논문2026. 06. 05. 13:47

Vortex: AI 에이전트를 위한 효율적이고 프로그래밍 가능한 희소 어텐션 (Sparse Attention) 서빙

요약

Vortex는 AI 에이전트와 연구자가 희소 어텐션(Sparse Attention) 알고리즘을 신속하게 프로토타이핑하고 배포할 수 있도록 돕는 시스템입니다. 페이지 중심 텐서 추상화와 Python 프론트엔드를 결합하여 이론적 효율성을 실제 처리량 개선으로 연결합니다.

핵심 포인트

희소 어텐션 알고리즘의 신속한 설계 및 반복 가속화
AI 에이전트를 통한 알고리즘 자동 생성 및 개선 지원
Full Attention 대비 최대 3.46배 높은 처리량 달성
NVIDIA B200 GPU 및 초거대 모델 환경에서 확장성 입증

생성 길이가 계속해서 길어짐에 따라, 대규모 언어 모델 (LLMs) 서빙을 위한 희소 어텐션 (Sparse attention)의 중요성이 점점 커지고 있습니다. 하지만 새로운 희소 어텐션 알고리즘을 대규모로 배포하고 평가하는 작업은 여전히 매우 집약적인 엔지니어링을 요구하며, 이는 인간 연구자와 AI 에이전트 모두의 희소 어텐션 설계 탐색 속도를 늦추고 있습니다. 이러한 과제를 해결하기 위해, 우리는 광범위한 희소 어텐션 알고리즘을 표현하기 위해 페이지 중심 텐서 추상화 (page-centric tensor abstraction) 위에 Python 임베디드 프론트엔드 언어를 결합하고, 현대적인 LLM 서빙 스택에 긴밀하게 통합된 효율적인 백엔드를 갖춘 시스템인 Vortex를 선보입니다. Vortex는 희소 어텐션 알고리즘의 신속한 프로토타이핑, 배포 및 평가를 가능하게 하여, 이론적인 효율성 이득을 실제 처리량 (throughput) 개선으로 효과적으로 전환합니다. 그 결과, Vortex는 희소 어텐션 알고리즘의 설계 및 반복 과정을 실질적으로 가속화합니다. 첫째, AI 에이전트는 Vortex를 사용하여 다양한 알고리즘을 자동으로 생성하고 개선하며, 가장 우수한 알고리즘은 정확도를 유지하면서도 풀 어텐션 (full attention) 대비 최대 $3.46 imes$ 더 높은 처리량을 달성합니다. 둘째, Vortex는 실험하기 어려운 신흥 아키텍처 및 초거대 모델로 희소 어텐션을 확장하며, NVIDIA B200 GPU 환경에서 MLA 기반의 GLM-4.7-Flash에서 최대 $4.7 imes$, 229B 파라미터 규모의 MiniMax-M2.7에서 $1.37 imes$ 더 높은 처리량을 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Vortex: AI 에이전트를 위한 효율적이고 프로그래밍 가능한 희소 어텐션 (Sparse Attention) 서빙

요약

핵심 포인트

댓글