AGENTSERVESIM: 멀티턴 LLM 에이전트 서빙을 위한 하드웨어 인식 시뮬레이터
요약
멀티턴 LLM 에이전트 서빙의 복잡성을 평가하기 위한 하드웨어 인식 시뮬레이터인 AGENTSERVESIM을 제안합니다. 기존 시뮬레이터와 달리 도구 호출 공백과 KV 캐시 지역성 등 에이전트 특유의 역학을 반영하여 실제 시스템 동작을 정밀하게 재현합니다.
핵심 포인트
- 멀티턴 에이전트의 상태 저장(stateful) 특성 반영
- 도구 호출로 인한 공백 및 KV 캐시 잔류 모델 구현
- 프로그램 입도에서의 서빙 정책 평가 가능
- 실제 시스템과 6% 이내의 오차로 성능 재현
멀티턴(Multi-turn) LLM 에이전트는 모델 호출과 외부 도구 호출(tool invocations)을 교차하여 수행하며, 이로 인해 서빙의 성격이 상태 비저장(stateless) 요청 처리에서 상태 저장(stateful) 프로그램 실행으로 전환됩니다. 이러한 워크로드를 서빙하기 위해서는 턴 간 의존성(turn dependencies), 도구 호출로 인한 공백(tool-induced gaps), 재사용 가능한 KV 상태를 포함한 프로그램 수준의 컨텍스트를 활용하는 스케줄링(scheduling), KV 캐시 관리(KV-cache management), 그리고 라우팅 정책(routing policies)이 필요합니다. 각 설계 지점마다 도착률(arrival rates), 모델 규모(model scales), 서빙 인스턴스 수(serving-instance counts), 메모리 계층 구조(memory hierarchies)에 걸쳐 전용 가속기(accelerator) 시간이 필요할 수 있기 때문에, 실제 시스템에서 이러한 정책을 직접 평가하는 것은 비용이 많이 듭니다. 시뮬레이션은 확장 가능한 대안을 제공하지만, 기존의 LLM 서빙 시뮬레이터들은 상태 비저장 요청 수준(stateless request-level)의 워크로드를 대상으로 하므로 에이전트 서빙의 핵심 역학인 멀티턴 프로그램 실행, 턴 간 캐시 지역성(cross-turn cache locality), 그리고 도구 호출 공백 기간 동안의 KV 캐시 잔류(KV-cache residency)를 생략합니다. 본 논문에서는 멀티턴 LLM 에이전트 서빙을 위한 하드웨어 인식(hardware-aware) 시뮬레이터인 AGENTSERVESIM을 제시합니다. AGENTSERVESIM은 다음과 같은 결합 가능한 모듈을 통해 프로그램 입도(program granularity)에서 서빙 정책을 평가합니다: 프로그램 오케스트레이터(Program Orchestrator)는 프로그램 정체성과 턴 순서를 보존하고, 도구 시뮬레이터(Tool Simulator)는 도구로 인해 발생하는 공백을 구현하며, 세션 인식 라우터(Session-Aware Router)는 캐시 인식을 고려한 디스패치(cache-aware dispatch)를 위해 프로그램-인스턴스 친화성(program-to-instance affinity)을 유지하고, KV 잔류 모델(KV Residency Model)은 HBM, 호스트 DRAM/CXL 및 퇴거(eviction) 전반에 걸쳐 정책에 정의된 KV 배치를 추적합니다. 실제 서빙 배포 및 하드웨어 구성 전반에 걸쳐, AGENTSERVESIM은 완전히 일반 CPU(commodity CPUs)에서 실행되면서도 주요 성능 지표에서 6% 이내의 오차로 실제 시스템 동작을 재현합니다. 이러한 결과는 AGENTSERVESIM이 비용이 많이 드는 가속기에 대한 철저한 배포 없이도 에이전트 서빙 정책에 대한 통제 가능하고 반복 가능한 탐색을 가능하게 함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기