본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 19. 12:14

Execution-State Capsules: 저지연, 소규모 배치, 온디바이스 Physical-AI 서빙을 위한 그래프 경계 실행 상태

요약

저지연 온디바이스 Physical-AI 서빙을 위해 실행 상태 전체를 스냅샷할 수 있는 'Execution-State Capsules' 기술을 제안합니다. KV 캐시를 넘어 순환 상태와 메타데이터를 포함한 그래프 경계 전체를 관리하여 빠른 복구와 재사용을 지원합니다.

핵심 포인트

  • KV 캐시를 넘어 전체 실행 상태를 스냅샷 및 복구하는 메커니즘 도입
  • Jetson AGX Thor 등 온디바이스 환경에 최적화된 저지연 서빙 기술
  • 16k 토큰 기준 TTFT를 최대 27배까지 가속하는 성능 입증
  • 순환 상태(recurrent state)를 포함한 완전한 실행 경계 관리

주류 LLM 서빙 시스템은 주로 페이지(paged) 또는 라딕스(radix) 키-값(KV) 캐시를 통해 접두사(prefix) 작업을 재사용합니다. 이는 높은 처리량(high-throughput)과 높은 동시성(high-concurrency) 서빙에는 매우 효과적이지만, 실행 상태의 단 하나의 위치적 파편인 KV 캐시만을 관리합니다. 우리는 이와 반대되는 영역인 저지연(low-latency), 소규모 배치(small-batch), 온디바이스(on-device) Physical-AI 서빙을 연구합니다. 이 영역에서는 대화형 LLM 에이전트, 음성 시스템, 로봇 정책이 엄격한 응답성 예산(responsiveness budgets) 하에서 반복적으로 분기(branch), 리셋(reset), 중단(interrupt) 및 재진입(re-enter)합니다. 우리는 확정된 경계(committed boundary)에서의 완전한 복구 가능 상태를 위한 그래프 경계(graph-bound) 체크포인트 및 복구 메커니즘인 execution-state capsules를 소개합니다. FlashRT는 화이트박스(white-box) 형태의 백엔드 지향 커널 런타임(kernel runtime)으로, 평가된 NVIDIA CUDA 백엔드는 블록 테이블 간접 참조(block-table indirection) 없이 연속적인 정적 버퍼(static buffers) 상에서 캡처된 그래프 플랜(graph plans)을 실행합니다. 라이브 상태가 이름이 지정된 버퍼들의 폐쇄 집합(closed set)이기 때문에, capsule은 KV, 순환 상태(recurrent state), 컨볼루션 상태(convolution state), MTP 상태, 그리고 메타데이터를 포함한 전체 실행 경계를 스냅샷(snapshot), 복구(restore), 포크(fork) 또는 롤백(roll back)할 수 있습니다. 이는 재사용의 단위를 토큰 기반의 KV 파편에서 그래프 경계의 실행 상태 경계로 이동시킵니다. RTX 5090에서 capsule 복구는 저장된 상태 수준에서 바이트 단위로 정확하며(byte-exact), 탐욕적 디코딩(greedy decode) 하에서 토큰 단위로 동일합니다(token-identical). KV 전용 어블레이션(ablation) 실험은 결과가 달라지며, 이는 순환 상태(recurrent state)가 핵심적인 역할을 수행함을 보여줍니다. GPU 상주형(GPU-resident) 스냅샷 및 복구는 1밀리초(sub-millisecond) 미만이며, 콜드 프리필(cold prefill) 대비 TTFT(Time To First Token) 가속은 2k 토큰에서 3.9배, 16k 토큰에서 27배까지 증가합니다. Jetson AGX Thor 및 DGX Spark에서도 동일한 정확성 및 구조적 특성이 유지됩니다. Capsules는 높은 처리량의 KV-cache 서빙을 대체하는 것이 아니라, 명시적인 실행 상태 재사용을 위한 상호 보완적인 지연 시간 우선(latency-first) 서빙 지점을 정의합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0