arXiv논문2026. 06. 05. 11:54

BIDENT: 효율적인 엣지 추론을 위한 이기종 연산자 수준 매핑

요약

BIDENT는 엣지 SoC의 CPU, GPU, NPU 등 이기종 프로세싱 유닛을 활용하기 위해 연산자 수준에서 최적의 매핑을 수행하는 프레임워크입니다. 실행 특성을 기반으로 지연 시간과 에너지를 최소화하는 최단 경로 문제로 스케줄링을 공식화하여 성능을 극대화합니다.

핵심 포인트

연산자 수준의 오케스트레이션을 통한 이기종 PU 최적 매핑
모델 불가지론적 접근으로 다양한 아키텍처(SSM, KAN 등) 지원
모델 내 병렬성 및 다중 모델 동시 스케줄링 지원
Intel Core Ultra SoC에서 최대 1.60배 속도 향상 및 에너지 48.2% 절감

현대의 엣지 시스템 온 칩 (SoCs)은 CPU, GPU, NPU와 같은 이기종 프로세싱 유닛 (PUs)을 통합하고 있지만, 현재의 추론 스택은 전체 모델을 단일 PU에 매핑함으로써 상당한 성능과 에너지 효율성을 놓치고 있습니다. 이는 상태 공간 모델 (SSMs), Kolmogorov-Arnold 네트워크 (KANs), 그리고 다단계 시각-언어-행동 (VLA) 파이프라인과 같이 다양한 연산자 특성이 특정 단일 PU에 균일하게 적합하지 않은 신흥 아키텍처들로 인해 더욱 악화됩니다. 본 논문에서는 프로파일링된 실행 특성을 기반으로 개별 연산자를 가장 적합한 PU에 매핑하는 이기종 엣지 추론을 위한 통합 연산자 수준 오케스트레이션 프레임워크인 BIDENT를 제안합니다. BIDENT는 연산자-to-PU 할당을 가중치가 부여된 실행 그래프 상의 최단 경로 문제로 공식화하여, 지연 시간 및 에너지 최소화 목표를 위한 비용 모델 하에서 효율적이고 최적화된 스케줄링을 가능하게 합니다. 모델별 휴리스틱이나 조립 단위의 파티셔닝 (coarse-grained partitioning)에 의존하는 기존 연구와 달리, BIDENT는 모델 불가지론적 (model-agnostic)이며 순차적 실행, 독립적인 연산자 간의 모델 내 병렬성 (intra-model parallelism), 그리고 다중 모델 동시 스케줄링을 단일 공식 내에서 공동으로 지원합니다. 우리는 Intel Core Ultra SoC에 BIDENT를 구현하였으며, CNN, Transformers, SSMs, KANs, 스파이킹 네트워크 (spiking networks), 그리고 다단계 파이프라인을 아우르는 10개의 모델 제품군에 대해 평가를 수행했습니다. BIDENT는 모델 내 병렬성을 통해 최대 1.60배의 속도 향상을 달성하였으며, 유휴 컴퓨팅 자원을 활용함으로써 190개의 다중 모델 조합에서 3.42배의 기하 평균 속도 향상을 기록했습니다. 순차적 이기종 매핑은 보다 완만한 이득 (최대 1.58배, 기하 평균 1.09배)을 보였으나, 에너지 인지 스케줄링 (energy-aware scheduling)은 동시 실행 환경에서 에너지 소비를 평균 48.2% 감소시켰습니다. 이러한 결과는 모델 수준의 매핑이 아닌 연산자 수준의 오케스트레이션이 차세대 엣지 AI에서 이기종성을 완전히 활용하기 위한 핵심 추상화임을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

BIDENT: 효율적인 엣지 추론을 위한 이기종 연산자 수준 매핑

요약

핵심 포인트

댓글