본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 19. 11:13

엣지 추론 거버너(Edge-Inference Governors)는 메모리 클록 상태를 필요로 한다

요약

엣지 디바이스의 ML 추론 시 메모리 클록(EMC) 상태를 고려하지 않는 기존 DVFS 거버너의 한계를 지적합니다. EMC를 인지하는 재조정 모델을 통해 Jetson Orin NX 환경에서 QoS 미스율을 1.3%까지 낮추고 에너지 효율을 높일 수 있음을 입증했습니다.

핵심 포인트

  • 기존 CPU/GPU 중심 추정기는 메모리 클록 미인지로 인해 마감 시간 준수에 실패함
  • EMC를 인지하는 모델은 QoS 미스율을 최대 1.3%로 유지하며 에너지 효율 최적화 가능
  • MobileNetV2, ViT, Qwen2.5 LLM 등 다양한 워크로드에서 효과 검증
  • CPU/GPU 상태만으로는 해결할 수 없는 메모리 클록의 중요성 강조

주파수 인식 지연 시간 추정기(Frequency-aware latency estimators)는 CPU 및 GPU 클록에 따른 지연 시간을 모델링함으로써 마감 시간 인식 DVFS 거버너(deadline-aware DVFS governors)가 엣지 ML 추론을 스케줄링할 수 있게 해주지만, 메모리 클록(EMC)을 관찰할 수는 없습니다. 이는 거버너가 마감 시간을 준수할지, 그리고 어느 정도의 에너지로 준수할지를 결정하는 누락된 배포 상태입니다. 우리는 Jetson Orin NX에서 배포 및 측정된 거버너를 통해 이를 입증했습니다. EMC를 인지하지 못하는 GPU 전용 모델은 타이트한 마감 시간 조건에서 사이클의 25-28%를 놓치는 반면, EMC를 인식하는 재조정(refit) 모델은 예산 내에서 실행 가능한 클록(주기적 비전 작업에 대해 에너지 최소화된 모듈 레일 전력(module-rail power)으로 보정된 클록)을 선택함으로써 2%의 QoS 미스 예산 하에서 미스율을 최대 1.3%로 유지합니다. 이러한 실패는 MobileNetV2, ViT 트랜스포머(transformer), 그리고 Qwen2.5 LLM 토큰 디코딩(saturated decode 상황에서 인지 모델이 실행 불가능한 blind 선택보다 더 낮은 에너지를 사용함)의 세 가지 워크로드 클래스 전반에 걸쳐 일반화됩니다. CPUxGPU 추정기는 배포된 거버너를 실행 불가능한 동작 지점으로 보내며, 오직 EMC를 인식하는 모델만이 에너지 프런티어(energy frontier)의 실행 가능한 측면을 식별합니다. 이 효과는 실제적이며 CPUxGPU 상태 추상화 범위를 벗어납니다. 동일한 잠금 가능한(lockable) EMC 지점을 공유하는 두 개의 Orin SKU에 걸쳐 중앙값 지연 시간을 최대 ~45%까지 변화시키며, 두 제품 모두에서 재현되고, 융합된 TensorRT fp16 엔진에서도 유지됩니다. CPUxGPU 모델은 이를 흡수하지 못합니다. 잠금 가능한 지점별 EMC 테이블이 필요하며, 범위 제한적 역전(scoped inversion)을 통해 단조성 가정(monotone assumptions)이 잘못된 방향을 선택할 수 있음을 보여주며, 클러스터링된 미스(clustered misses)는 집계된 QoS 비율이 배포 위험을 과소평가하게 만듭니다. 우리는 하네스(harness)를 공개합니다. 이는 CPUxGPU 범위 내의 최신 기술을 반박하는 것이 아니라 보완하는 것입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0