WattGPU: 미학습 GPU 및 LLM에서의 추론 전력과 지연 시간 예측
요약
WattGPU는 프로파일링 데이터 없이 LLM의 추론 전력 소모량과 지연 시간을 예측하는 새로운 모델을 제안합니다. GPU 사양과 LLM 메타데이터만을 활용하여 미학습 하드웨어 및 모델 조합에 대해서도 높은 정확도로 성능을 예측할 수 있습니다.
핵심 포인트
- 하드웨어 프로파일링 없이 GPU 전력 및 지연 시간 예측 가능
- 미학습 NVIDIA 서버급 GPU 및 LLM에 대한 높은 일반화 성능
- 기존 물리 기반 베이스라인 대비 오차율을 최대 4배 감소
- 오픈 소스 데이터 및 코드를 통해 연구 커뮤니티에 공개
대규모 언어 모델 (LLM) 추론 워크로드는 데이터 센터 에너지 소비의 급격히 증가하는 요인입니다. 이러한 배포를 최적화하려면 특정 LLM을 가장 효율적인 GPU와 매칭해야 하지만, 운영자들은 현재 각 조합을 철저히 프로파일링 (Profiling) 하지 않고는 이를 수행할 수 있는 도구가 부족합니다. 일부 예측 모델이 존재하기는 하지만, 이들은 여전히 프로파일링 데이터를 필요로 하며 훈련 과정에서 보지 못한 하드웨어로 일반화하는 데 어려움을 겪습니다. 이를 해결하기 위해, 우리는 평균 GPU 전력 소모량과 토큰 간 지연 시간 (Inter-Token Latency, ITL)을 위한 두 가지 예측 모델을 특징으로 하는 \textit{WattGPU}를 소개합니다. 우리의 접근 방식은 공개적으로 사용 가능한 LLM 메타데이터와 GPU 사양만을 활용하여, 하드웨어 접근이나 프로파일링의 필요성을 제거하는 동시에 미학습 NVIDIA 서버급 GPU 및 LLM으로의 일반화를 가능하게 합니다. 우리는 42개의 오픈 소스 LLM (0.1B--27B 파라미터)과 오프라인 및 서버 시나리오 모두에서의 8개 GPU 데이터셋을 사용하여 엄격한 leave-one-GPU-out 및 leave-one-LLM-out 교차 검증을 통해 모델을 평가합니다. 평균 전력 소모량 모델은 미학습 GPU에 대해 오프라인 시나리오에서 $\leq3.4%$, 서버 시나리오에서 $\leq13.5%$의 중앙값 절대 백분율 오차 (Median Absolute Percentage Error)를 달성하였으며, 지연 시간 모델은 서버 모드에서 $\leq8.5%$를 달성하였고, 두 모델 모두 서버 시나리오에 대해 강력한 GPU 순위 상관관계 (Kendall $τ\geq0.76$)를 유지합니다. 전력 소모에 대한 Load-Scaled Thermal Design Power (TDP) 및 지연 시간에 대한 roofline과 같은 표준적인 물리 기반 베이스라인 (Baselines)과 비교했을 때, 우리의 모델은 서버 시나리오의 미학습 LLM-GPU 조합에 대해 중앙값 절대 백분율 오차를 약 4배, 완전히 새로운 GPU에 대해 약 2배 감소시킵니다. WattGPU의 데이터와 코드는 https://github.com/maufadel/wattgpu 에서 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기