EnerInfer: 에너지 인지형 온디바이스 LLM 추론
요약
온디바이스 LLM 추론 시 에너지와 발열 문제를 해결하기 위한 새로운 프레임워크 EnerInfer를 제안합니다. NPU 및 메모리 주파수를 동적으로 조절하여 사용자 경험(QoE)을 유지하면서도 에너지 효율을 극대화합니다.
핵심 포인트
- 에너지 및 열 비용 문제를 해결하기 위한 온디바이스 LLM 최적화 프레임워크 제안
- NPU 및 DDR 주파수 조절을 통해 에너지 효율과 열 관리 동시 수행
- 모델 구조 인지형 예측 및 온라인 피드백을 통한 실시간 구성 최적화
- 스마트폰, 노트북 등에서 최대 65%의 에너지 효율 개선 입증
온디바이스 LLM (Large Language Model) 추론은 개인정보 보호, 신뢰성, 비용 효율적인 배포를 위해 점점 더 매력적인 기술이 되고 있지만, 에너지 및 열 비용은 여전히 중요한 병목 현상으로 남아 있습니다. 기존 시스템은 주로 디코딩 속도 (decoding speed)를 최적화하며, 더 빠른 실행이 항상 바람직하다는 것을 암묵적으로 가정합니다. 우리는 대신 온디바이스 LLM 추론에 활용 가능한 구성 여유 (configuration slack)가 있음을 보여줍니다. NPU 및 메모리 주파수를 적절히 낮추면 사용자 경험 품질 (QoE, Quality of Experience)을 유지하면서도 에너지 효율을 실질적으로 개선하고 열을 줄일 수 있습니다. 이러한 기회를 실제 프로덕션에서 실현하는 것은 어렵습니다. 가장 에너지 효율적인 NPU/DDR 설정은 모델, 추론 엔진, 플랫폼 및 런타임 조건에 따라 달라지며, 구성 간에 안정적인 순위가 존재하지 않습니다. 상용 기기는 부품 수준의 전력 감지 기능이 부족하며, 쉘 온도 (shell temperature)는 요청 도착, 응답 길이 및 열 이력에 따라 변화합니다. 이러한 과제를 해결하기 위해, 우리는 LLM 워크로드에 대해 에너지 효율, 처리량 (throughput), 그리고 열적 쾌적함 (thermal comfort)을 공동으로 관리하는 최초의 온디바이스 LLM 추론 프레임워크인 EnerInfer를 제안합니다. EnerInfer는 모델별 프로파일링 (profiling) 및 센서 중심의 제어를 분리된 모델 구조 인지형 예측 (model-structure-aware prediction) 및 순위 기반 온라인 피드백으로 대체합니다. 이는 NPU/DDR 주파수 설정에 따라 보지 못한 LLM에 대한 처리량과 전력을 예측하고, 런타임 간섭 하에서 QoE를 만족하는 효율적인 구성을 선택하며, 경량화된 제한된 범위 열 예측 (limited-horizon thermal prediction)을 사용하여 에너지 최적화 추론과 열 제약 추론 사이를 동적으로 전환합니다. 실제 LLM에 대한 평가 결과, EnerInfer는 QoE 위반 없이 스마트폰, 노트북, 개발 보드에서 각각 최대 65%, 12%, 24%의 에너지 효율을 개선함을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기