EnerInfer: 에너지 인지형 온디바이스 LLM 추론
요약
온디바이스 LLM 추론 시 에너지와 발열 문제를 해결하기 위한 새로운 프레임워크 EnerInfer를 제안합니다. NPU 및 메모리 주파수를 동적으로 조절하여 사용자 경험(QoE)을 유지하면서 에너지 효율을 극대화합니다.
핵심 포인트
- 에너지 및 열 비용 문제를 해결하기 위한 온디바이스 LLM 최적화 프레임워크 제안
- NPU 및 DDR 주파수 조절을 통해 에너지 효율과 열 관리 동시 수행
- 모델 구조 인식 예측 및 온라인 피드백을 통한 효율적인 구성 선택
- 스마트폰, 노트북 등에서 최대 65%의 에너지 효율 개선 입증
온디바이스 LLM 추론은 개인정보 보호, 신뢰성, 비용 효율적인 배포를 위해 점점 더 매력적으로 다가오고 있지만, 에너지 및 열 비용은 여전히 중요한 병목 현상으로 남아 있습니다. 기존 시스템은 주로 디코딩 속도 (decoding speed)를 최적화하며, 더 빠른 실행이 항상 바람직하다는 것을 암묵적으로 가정합니다. 우리는 대신 온디바이스 LLM 추론에 활용 가능한 구성 여유 (configuration slack)가 있음을 보여줍니다. NPU 및 메모리 주파수를 적절히 낮추면 사용자 경험 품질 (QoE)을 유지하면서도 에너지 효율을 실질적으로 개선하고 열을 줄일 수 있습니다. 이러한 기회를 실제 프로덕션에서 실현하는 것은 어렵습니다. 가장 에너지 효율적인 NPU/DDR 설정은 모델, 추론 엔진 (inference engine), 플랫폼 및 런타임 조건에 따라 달라지며, 구성 간에 안정적인 순위가 존재하지 않습니다. 상용 기기는 컴포넌트 수준의 전력 감지 기능이 부족하며, 쉘 온도 (shell temperature)는 요청 도착, 응답 길이 및 열 이력에 따라 변화합니다. 이러한 과제를 해결하기 위해, 우리는 LLM 워크로드에 대해 에너지 효율, 처리량 (throughput) 및 열적 쾌적함 (thermal comfort)을 공동으로 관리하는 최초의 온디바이스 LLM 추론 프레임워크인 EnerInfer를 제안합니다. EnerInfer는 모델별 프로파일링 (per-model profiling) 및 센서 집약적 제어를 분리된 모델 구조 인식 예측 (model-structure-aware prediction) 및 순위 기반 온라인 피드백으로 대체합니다. 이는 NPU/DDR 주파수 설정에 따라 보지 못한 LLM에 대한 처리량과 전력을 예측하고, 런타임 간섭 하에서 QoE를 만족하는 효율적인 구성을 선택하며, 경량화된 제한된 범위 열 예측 (limited-horizon thermal prediction)을 사용하여 에너지 최적화 추론과 열 제약 추론 사이를 동적으로 전환합니다. 실제 LLM에 대한 평가 결과, EnerInfer는 QoE 위반 없이 스마트폰, 노트북 및 개발 보드에서 각각 최대 65%, 12%, 24%의 에너지 효율을 개선함을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기