arXiv논문2026. 06. 19. 11:13

엣지 추론 거버너(Edge-Inference Governors)는 메모리 클록 상태를 필요로 한다

요약

엣지 디바이스의 ML 추론 시 메모리 클록(EMC) 상태를 고려하지 않는 기존 DVFS 거버너의 한계를 지적합니다. EMC를 인지하는 재조정 모델을 통해 Jetson Orin NX 환경에서 QoS 미스율을 1.3%까지 낮추고 에너지 효율을 높일 수 있음을 입증했습니다.

핵심 포인트

기존 CPU/GPU 중심 추정기는 메모리 클록 미인지로 인해 마감 시간 준수에 실패함
EMC를 인지하는 모델은 QoS 미스율을 최대 1.3%로 유지하며 에너지 효율 최적화 가능
MobileNetV2, ViT, Qwen2.5 LLM 등 다양한 워크로드에서 효과 검증
CPU/GPU 상태만으로는 해결할 수 없는 메모리 클록의 중요성 강조

주파수 인식 지연 시간 추정기(Frequency-aware latency estimators)는 CPU 및 GPU 클록에 따른 지연 시간을 모델링함으로써 마감 시간 인식 DVFS 거버너(deadline-aware DVFS governors)가 엣지 ML 추론을 스케줄링할 수 있게 해주지만, 메모리 클록(EMC)을 관찰할 수는 없습니다. 이는 거버너가 마감 시간을 준수할지, 그리고 어느 정도의 에너지로 준수할지를 결정하는 누락된 배포 상태입니다. 우리는 Jetson Orin NX에서 배포 및 측정된 거버너를 통해 이를 입증했습니다. EMC를 인지하지 못하는 GPU 전용 모델은 타이트한 마감 시간 조건에서 사이클의 25-28%를 놓치는 반면, EMC를 인식하는 재조정(refit) 모델은 예산 내에서 실행 가능한 클록(주기적 비전 작업에 대해 에너지 최소화된 모듈 레일 전력(module-rail power)으로 보정된 클록)을 선택함으로써 2%의 QoS 미스 예산 하에서 미스율을 최대 1.3%로 유지합니다. 이러한 실패는 MobileNetV2, ViT 트랜스포머(transformer), 그리고 Qwen2.5 LLM 토큰 디코딩(saturated decode 상황에서 인지 모델이 실행 불가능한 blind 선택보다 더 낮은 에너지를 사용함)의 세 가지 워크로드 클래스 전반에 걸쳐 일반화됩니다. CPUxGPU 추정기는 배포된 거버너를 실행 불가능한 동작 지점으로 보내며, 오직 EMC를 인식하는 모델만이 에너지 프런티어(energy frontier)의 실행 가능한 측면을 식별합니다. 이 효과는 실제적이며 CPUxGPU 상태 추상화 범위를 벗어납니다. 동일한 잠금 가능한(lockable) EMC 지점을 공유하는 두 개의 Orin SKU에 걸쳐 중앙값 지연 시간을 최대 ~45%까지 변화시키며, 두 제품 모두에서 재현되고, 융합된 TensorRT fp16 엔진에서도 유지됩니다. CPUxGPU 모델은 이를 흡수하지 못합니다. 잠금 가능한 지점별 EMC 테이블이 필요하며, 범위 제한적 역전(scoped inversion)을 통해 단조성 가정(monotone assumptions)이 잘못된 방향을 선택할 수 있음을 보여주며, 클러스터링된 미스(clustered misses)는 집계된 QoS 비율이 배포 위험을 과소평가하게 만듭니다. 우리는 하네스(harness)를 공개합니다. 이는 CPUxGPU 범위 내의 최신 기술을 반박하는 것이 아니라 보완하는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

엣지 추론 거버너(Edge-Inference Governors)는 메모리 클록 상태를 필요로 한다

요약

핵심 포인트

댓글