예측이 아닌 관찰: 에이전트 서빙을 위한 대화 수준의 분리형 스케줄링 (Conversation-Level Disaggregated
요약
LLM 에이전트의 불규칙한 워크로드를 효율적으로 처리하기 위해 스케줄링 단위를 '턴'에서 '대화'로 격상한 ConServe 시스템을 제안합니다. 예측 대신 관찰 가능한 지표를 활용하여 프리필과 디코드 과정을 분리함으로써 지연 시간을 단축하고 에너지 효율을 높였습니다.
핵심 포인트
- 스케줄링 단위를 턴에서 대화 단위로 격상하여 예측 의존성 제거
- 첫 번째 턴의 프리필과 이후 긴 디코드 과정을 분리하여 처리
- p95 첫 번째 유효 토큰 도달 시간 51.08% 단축
- 이기종 GPU 계층 매핑을 통해 에너지 효율 최대 22.75% 추가 향상
LLM 기반 에이전트(LLM-based agents)는 여러 차례의 의존적인 추론(inference)과 도구 호출(tool calls)을 통해 사용자 작업을 해결하며, 작업이 도착했을 때 총 비용을 알 수 없는 워크로드(workload)를 생성합니다. 기존의 멀티 턴(multi-turn) 시스템은 턴(turn)을 스케줄링 단위로 유지하며, 턴마다 프리필(prefill)과 디코드(decode)를 분리할지 여부를 결정합니다. 이러한 결정은 턴의 디코드 길이, 도구 동작, KV 성장량에 달려 있는데, 이 수치들은 스케줄러가 동작해야 하는 시점에는 관찰할 수 없으므로 시스템이 이를 예측하도록 강제합니다. 우리는 이러한 예측에 대한 의존성이 워크로드가 아닌 스케줄링 단위에 의해 강제된다는 것을 보여줍니다. 스케줄링 단위를 턴에서 대화(conversation)로 격상하면 턴 수준의 불규칙성이 안정적인 2단계 구조로 전환됩니다: 1) 연산 집약적인(compute-bound) 첫 번째 턴의 프리필(prefill)에 이어 2) 긴 메모리 집약적(memory-bound) 테일(tail)이 뒤따릅니다. 따라서 대화를 스케줄링 단위로 사용하면, 배치는 직접 관찰 가능한 수치인 첫 번째 턴의 입력 길이와 디코더당 KV 점유율(KV occupancy)을 읽는 문제로 축소됩니다. 우리는 이 원칙을 ConServe에 구현하였으며, ConServe는 첫 번째 턴의 프리필을 고처리량 프리필러(high-throughput prefiller)로 라우팅하고, KV 캐시(KV cache)를 정확히 한 번 전송하며, 디코드 측 비용에 대한 학습된 모델 없이 대화의 전체 테일 동안 단일 디코더에 고정(pin)합니다. 턴별 예측 베이스라인과 비교했을 때, ConServe는 마지막 턴의 TBT(Time Between Tokens)와 SLO(Service Level Objectives)를 유지하면서도 p95 첫 번째 유효 토큰 도달 시간(time-to-first-effective-token, 대화의 첫 번째 사용자 가시적 출력 지연 시간)을 51.08% 단축하고 에너지 효율을 7.51% 향상시켰습니다. 이 두 단계를 이기종 GPU 계층(heterogeneous GPU tiers)에 매핑하면 에너지 효율이 22.75% 추가로 향상됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기