본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 11:53

Frontier: 포괄적이고 정확한 LLM 추론 시뮬레이션을 향하여

요약

Frontier는 현대적인 LLM 서빙 시스템의 복잡한 구조를 모델링하기 위해 설계된 이산 이벤트 시뮬레이터입니다. 기존 시뮬레이터가 해결하지 못한 Prefill-Decode 분리(PDD) 및 Attention-FFN 분리(AFD)와 같은 최신 아키텍처를 정확하게 반영하며, 실제 GPU 환경과 매우 유사한 성능 예측을 제공합니다.

핵심 포인트

  • Prefill-Decode 분리(PDD) 및 Attention-FFN 분리(AFD)를 포함한 현대적 LLM 서빙 구조 모델링 지원
  • CUDA Graphs, speculative decoding 등 주요 런타임 최적화 기법을 시뮬레이션 루프에 통합
  • 실제 H800 GPU 환경 테스트 결과, 처리량 오차 4% 미만 및 지연 시간 오차 대폭 감소 달성
  • SLA 기반 최적화, 에이전트 스케줄링 검증, RL 사후 학습 재구성 등 다양한 유스케이스 지원 가능

현대의 LLM (Large Language Model) 서빙은 더 이상 균질(homogeneous)하거나 단일적(monolithic)이지 않습니다. 현재의 프로덕션 시스템은 분리된 실행(disaggregated execution), 복잡한 병렬성(parallelism), 런타임 최적화, 그리고 추론(reasoning), 에이전트(agents), RL (Reinforcement Learning) 롤아웃(rollouts)과 같은 상태 유지 워크로드(stateful workloads)를 결합하고 있습니다. 시뮬레이션은 이러한 확장되는 설계 공간을 탐색하는 데 매력적이지만, 기존 시뮬레이터들은 그것이 요구하는 아키텍처적 완전성과 의사결정 수준의 충실도(fidelity)가 부족합니다. 기존의 단일 복제(monolithic-replica) 추상화는 분리된 서빙(disaggregated serving)에 부적합하며, 평균 사례 분석 프록시(average-case analytical proxies)는 SLA (Service Level Agreement) 예측을 왜곡하거나 심지어 최적화 결론을 반대로 이끌어낼 수도 있습니다.

우리는 현대적인 LLM 추론 서빙을 위한 이산 이벤트 시뮬레이터(discrete-event simulator)인 Frontier를 제시합니다. Frontier는 분리된 추상화(disaggregated abstraction)를 특징으로 합니다. 이는 역할별 클러스터 워커(role-specific cluster workers)를 통해 공동 배치(co-location), Prefill-Decode 분리(PDD, Prefill-Decode Disaggregation), 그리고 Attention-FFN 분리(AFD, Attention-FFN Disaggregation)를 모델링함으로써 현대 서빙 시스템의 구조와 역학을 포착하며, 스케줄러-배치-엔진 루프 내에 주요 런타임 최적화(예: CUDA Graphs, speculative decoding)를 통합하고, 신흥 워크로드를 위한 상태 유지 요청(stateful requests)을 지원합니다. 또한 복잡한 워크로드 구성이 포함된 다양한 서빙 시나리오 전반에서 계산, 통신 및 메모리 비용에 대한 정확하고 일반화 가능한 예측을 제공합니다.

16-H800 GPU 테스트베드에서 Frontier는 4% 미만의 평균 처리량(throughput) 오차를 달성했습니다. 최첨단 시뮬레이터와 비교했을 때, 공동 배치(co-location) 환경에서는 종단 간 지연 시간(end-to-end latency) 오차를 44.9%에서 6.4%로 줄였으며, 분리(disaggregation) 환경에서는 51.7%에서 2.6%로 줄였습니다. 이는 범용 CPU 상에서 1K개 이상의 GPU로 확장 가능하며, SLA 기반의 파레토 프런티어(Pareto frontier) 탐색, 이기종 분리 할당(heterogeneous disaggregated allocation), 에이전트 기반 추론 스케줄링 검증, RL 사후 학습(post-training) 재구성(reconfiguration)과 같은 새로운 유스케이스를 가능하게 합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0