PALS: Mixture-of-Experts 모델을 위한 전력 인식형 LLM 서빙
요약
PALS는 GPU 전력 제한을 주요 제어 변수로 활용하여 LLM 서빙의 에너지 효율을 최적화하는 전력 인식형 런타임입니다. vLLM 프레임워크 내에 구현되어 MoE 및 Dense 모델 모두에서 에너지 효율을 최대 26.3% 향상시키고 QoS 위반을 획기적으로 줄였습니다.
핵심 포인트
- GPU 전력 제한(power caps)을 소프트웨어 파라미터와 함께 최적화 가능한 제어 요소로 취급
- 경량 오프라인 전력-성능 모델과 피드백 기반 컨트롤러를 결합한 시스템 구조
- vLLM 내 구현을 통해 모델 재학습이나 API 변경 없이 기존 프레임워크와 호환 가능
- MoE 및 Dense 모델 환경에서 에너지 효율 향상 및 전력 제약 조건 하의 QoS 안정성 확보
대규모 언어 모델 (LLM) 추론은 현대 데이터 센터에서 지배적인 워크로드(workload)가 되었으며, 상당한 GPU 활용도와 에너지 소비를 유발하고 있습니다. 기존 시스템들은 배치(batching), 스케줄링(scheduling), 병렬화(parallelism)를 통해 처리량(throughput)과 지연 시간(latency)을 최적화하지만, GPU 전력을 제어 가능한 자원이 아닌 정적인 제약 조건으로 취급하는 경우가 많습니다. 본 논문에서는 GPU 전력 제한(power caps)을 일급 제어 노브(first-class control knob)로 취급하고, 이를 배치 크기(batch size)와 같은 소프트웨어 파라미터와 공동으로 최적화하는 LLM 서빙을 위한 전력 인식형 런타임(power-aware runtime)인 PALS를 제시합니다. 이 시스템은 경량화된 오프라인 전력-성능 모델(power-performance models)과 피드백 기반 컨트롤러(feedback-driven controller)를 결합하여, 에너지 효율을 극대화하면서도 처리량 목표를 충족하는 구성을 선택합니다. 우리는 기존 LLM 서빙 프레임워크인 vLLM 내에 PALS를 구현하였으며, 이를 통해 모델 재학습이나 API 변경이 필요하지 않음을 입증했습니다. 멀티 GPU 시스템과 Dense 및 Mixture-of-Experts (MoE) 모델 모두에서, PALS는 에너지 효율을 최대 26.3% 향상시키고, 전력 제약 조건 하에서 QoS 위반을 4배에서 7배까지 줄이며, 동적 전력 예산(dynamic power budgets)을 추적합니다. 이러한 결과는 전력 제어를 LLM 추론 런타임에 직접 통합함으로써 에너지 비례적(energy-proportional)이고 그리드 상호작용(grid-interactive)이 가능한 AI 시스템을 구현할 수 있는 잠재력을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기