NPU가 항상 더 빠르지는 않은 이유: 모바일 LLM 추론에 대한 스테이지 레벨 분석
요약
모바일 SoC 환경에서 LLM 추론 시 CPU와 NPU의 성능을 스테이지별로 분석한 연구입니다. 프리필 단계에서는 CPU가, 디코드 단계에서는 NPU의 효율이 제한적임을 밝히고 NPU 설계 가이드라인을 제시합니다.
핵심 포인트
- 프리필 스테이지에서 CPU가 NPU보다 최대 1.6배 빠른 성능 기록
- NPU는 디코드 단계에서 1.05-1.2배의 제한적인 가속만 제공
- 스케줄링 오버헤드와 백엔드 폴백이 NPU 이점을 감소시킴
- NPU 오프로딩 증가 시 에너지 소비가 최대 51%까지 상승 가능
모바일 기기에서 대규모 언어 모델 (LLMs)을 배포하는 것은 점점 더 이기종 실행 (heterogeneous execution)에 의존하고 있지만, 연산자 (operator) 및 파이프라인 레벨에서 NPU의 효과를 체계적으로 특성화한 선행 연구는 없었습니다. 우리는 CPU-NPU 이기종 SoC 상에서 모바일 LLM 추론에 대한 최초의 스테이지 인지형 (stage-aware), 다중 레벨 벤치마킹 연구를 제시합니다. 우리는 NPU 실행 경로 내에서 통신 (communication), 양자화 (quantization), 그리고 연산 오버헤드 (computation overheads)를 격리하는 OPMASK 기반의 제어된 파이프라인 분해 방법론을 도입합니다. 우리의 결과는 직관에 반하는 스테이지 레벨의 성능 역전 현상을 보여줍니다: CPU는 연산 집약적인 프리필 (Prefill) 스테이지에서 NPU보다 더 나은 성능을 보이며 (최대 1.6배), NPU는 메모리 대역폭 제한적인 (memory-bound) 디코드 (Decode) 스테이지에서 제한적인 가속 (1.05-1.2배)만을 제공합니다. 우리는 더 나아가 스케줄링 오버헤드 (scheduling overhead)와 크로스 백엔드 폴백 (cross-backend fallback)이 NPU 오프로딩 (offloading)의 실질적인 이점을 감소시킨다는 것을 보여줍니다. 에너지 트렌드의 경우, NPU 오프로딩을 늘리는 것은 더 높은 에너지 소비 (최대 51%)로 이어집니다. 이러한 발견을 바탕으로, 우리는 온디바이스 LLM 추론을 목표로 하는 NPU 설계자들을 위한 설계 가이드라인을 도출합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기