WattGPU: 미학습 GPU 및 LLM에서의 추론 전력과 지연 시간 예측

대규모 언어 모델 (LLM) 추론 워크로드는 데이터 센터 에너지 소비의 급격히 증가하는 요인입니다. 이러한 배포를 최적화하려면 특정 LLM을 가장 효율적인 GPU와 매칭해야 하지만, 운영자들은 현재 각 조합을 철저히 프로파일링 (Profiling) 하지 않고는 이를 수행할 수 있는 도구가 부족합니다. 일부 예측 모델이 존재하기는 하지만, 이들은 여전히 프로파일링 데이터를 필요로 하며 훈련 과정에서 보지 못한 하드웨어로 일반화하는 데 어려움을 겪습니다. 이를 해결하기 위해, 우리는 평균 GPU 전력 소모량과 토큰 간 지연 시간 (Inter-Token Latency, ITL)을 위한 두 가지 예측 모델을 특징으로 하는 \textit{WattGPU}를 소개합니다. 우리의 접근 방식은 공개적으로 사용 가능한 LLM 메타데이터와 GPU 사양만을 활용하여, 하드웨어 접근이나 프로파일링의 필요성을 제거하는 동시에 미학습 NVIDIA 서버급 GPU 및 LLM으로의 일반화를 가능하게 합니다. 우리는 42개의 오픈 소스 LLM (0.1B--27B 파라미터)과 오프라인 및 서버 시나리오 모두에서의 8개 GPU 데이터셋을 사용하여 엄격한 leave-one-GPU-out 및 leave-one-LLM-out 교차 검증을 통해 모델을 평가합니다. 평균 전력 소모량 모델은 미학습 GPU에 대해 오프라인 시나리오에서 $\leq3.4%$, 서버 시나리오에서 $\leq13.5%$의 중앙값 절대 백분율 오차 (Median Absolute Percentage Error)를 달성하였으며, 지연 시간 모델은 서버 모드에서 $\leq8.5%$를 달성하였고, 두 모델 모두 서버 시나리오에 대해 강력한 GPU 순위 상관관계 (Kendall $τ\geq0.76$)를 유지합니다. 전력 소모에 대한 Load-Scaled Thermal Design Power (TDP) 및 지연 시간에 대한 roofline과 같은 표준적인 물리 기반 베이스라인 (Baselines)과 비교했을 때, 우리의 모델은 서버 시나리오의 미학습 LLM-GPU 조합에 대해 중앙값 절대 백분율 오차를 약 4배, 완전히 새로운 GPU에 대해 약 2배 감소시킵니다. WattGPU의 데이터와 코드는 https://github.com/maufadel/wattgpu 에서 공개적으로 사용할 수 있습니다.

Insights

WattGPU: 미학습 GPU 및 LLM에서의 추론 전력과 지연 시간 예측

요약

핵심 포인트

댓글

모델 벤치마크가 아닌 인적 자본이 예측에서의 하이브리드 지능을 예측한다

역대 최다 인도인데 −7% 급락? 테슬라 2분기 48만 대의 반전 | 7/2 테슬라 브리핑

G-RRM: 순환 추론 모델(Recurrent Reasoning Models)을 이용한 심볼릭 솔버(Symbolic Solvers) 가이드

텍스트 노이즈 및 중복성 대응: 엔트로피 인지형 밀집 시각 토큰 프루닝 (Entropy-Aware Dense Visual Token

모델 벤치마크가 아닌 인적 자본이 예측에서의 하이브리드 지능을 예측한다

역대 최다 인도인데 −7% 급락? 테슬라 2분기 48만 대의 반전 | 7/2 테슬라 브리핑

G-RRM: 순환 추론 모델(Recurrent Reasoning Models)을 이용한 심볼릭 솔버(Symbolic Solvers) 가이드

텍스트 노이즈 및 중복성 대응: 엔트로피 인지형 밀집 시각 토큰 프루닝 (Entropy-Aware Dense Visual Token