PALS: Mixture-of-Experts 모델을 위한 전력 인식형 LLM 서빙

대규모 언어 모델 (LLM) 추론은 현대 데이터 센터에서 지배적인 워크로드(workload)가 되었으며, 상당한 GPU 활용도와 에너지 소비를 유발하고 있습니다. 기존 시스템들은 배치(batching), 스케줄링(scheduling), 병렬화(parallelism)를 통해 처리량(throughput)과 지연 시간(latency)을 최적화하지만, GPU 전력을 제어 가능한 자원이 아닌 정적인 제약 조건으로 취급하는 경우가 많습니다. 본 논문에서는 GPU 전력 제한(power caps)을 일급 제어 노브(first-class control knob)로 취급하고, 이를 배치 크기(batch size)와 같은 소프트웨어 파라미터와 공동으로 최적화하는 LLM 서빙을 위한 전력 인식형 런타임(power-aware runtime)인 PALS를 제시합니다. 이 시스템은 경량화된 오프라인 전력-성능 모델(power-performance models)과 피드백 기반 컨트롤러(feedback-driven controller)를 결합하여, 에너지 효율을 극대화하면서도 처리량 목표를 충족하는 구성을 선택합니다. 우리는 기존 LLM 서빙 프레임워크인 vLLM 내에 PALS를 구현하였으며, 이를 통해 모델 재학습이나 API 변경이 필요하지 않음을 입증했습니다. 멀티 GPU 시스템과 Dense 및 Mixture-of-Experts (MoE) 모델 모두에서, PALS는 에너지 효율을 최대 26.3% 향상시키고, 전력 제약 조건 하에서 QoS 위반을 4배에서 7배까지 줄이며, 동적 전력 예산(dynamic power budgets)을 추적합니다. 이러한 결과는 전력 제어를 LLM 추론 런타임에 직접 통합함으로써 에너지 비례적(energy-proportional)이고 그리드 상호작용(grid-interactive)이 가능한 AI 시스템을 구현할 수 있는 잠재력을 보여줍니다.

Insights

PALS: Mixture-of-Experts 모델을 위한 전력 인식형 LLM 서빙

요약

핵심 포인트

댓글

Rust로 마이크로 AI 코드 리뷰어 구축하기: Unsafe 및 시스템 메트릭을 활용한 'ratatop'의 교훈

Ops 에이전트의 채팅 기록은 공격 표면입니다: 프롬프트 인젝션이 인프라 문제로 변했습니다

Alibaba의 Qwen3.8-Max: 2.4조 개의 파라미터가 개발자에게 실제로 의미하는 것

Claude Max 20x와 Codex Pro 5x에 월 $300 지불 — AI 과금 월보 #1 (2026년 7월)

Rust로 마이크로 AI 코드 리뷰어 구축하기: Unsafe 및 시스템 메트릭을 활용한 'ratatop'의 교훈

Ops 에이전트의 채팅 기록은 공격 표면입니다: 프롬프트 인젝션이 인프라 문제로 변했습니다

Alibaba의 Qwen3.8-Max: 2.4조 개의 파라미터가 개발자에게 실제로 의미하는 것

Claude Max 20x와 Codex Pro 5x에 월 $300 지불 — AI 과금 월보 #1 (2026년 7월)