arXiv논문2026. 04. 28. 15:30

XPU 를 통한 비전 - 언어 - 행동 (VLA) 모델 특성화: 온로봇 배포를 위한 제약 조건 및 가속화

요약

본 논문은 범용 로봇 제어에 사용되는 VLA(Vision-Language-Action) 모델을 온로봇 환경에 배포할 때 발생하는 비용, 에너지, 시간적 제약을 다룹니다. 기존 연구가 데스크톱 GPU에 의존하여 엣지 가속기의 실제 성능을 제대로 평가하지 못했음을 지적하며, 모델과 하드웨어의 공동 특성화 분석을 통해 효율적인 저비용 엣지 디바이스를 제시합니다. 또한, VLM 백본과 액션 전문가 간의 추론 패턴 비효율성을 발견하고, DP-Cache 및 V-AEFusion이라는 새로운 최적화 기법을 제안하여 GPU와 NPU 환경 모두에서 높은 속도 향상을 달성했습니다.

핵심 포인트

VLA 모델 온로봇 배포는 비용, 에너지, 시간 등 엄격한 엣지 제약 조건 하에 이루어져야 한다.
모델-하드웨어 공동 특성화(co-characterization)를 통해 플래그십 GPU보다 효율적인 저비용 엣지 가속기 사용이 가능하다.
VLM 백본과 액션 전문가 간의 추론 과정에서 단계별 과소 활용 및 하드웨어 비효율성이 발생한다.
DP-Cache와 V-AEFusion을 제안하여 확산 중복성을 줄이고 파이프라인 병렬화를 구현함으로써, GPU 대비 최대 2.9배, NPU 대비 6배의 속도 향상을 달성했다.

비전 - 언어 - 행동 (Vision-Language-Action, VLA) 모델은 범용 로봇 제어에 유망하지만, 온로봇 배포는 엄격한 비용과 에너지 예산 하에서의 실시간 추론으로 인해 병목 현상을 겪습니다. 대부분의 이전 평가는 데스크톱급 GPU 에 의존하여 이종 엣지 가속기 (GPU/XPU/NPU) 가 제공하는 트레이드오프와 기회를 흐리게 합니다. 우리는 모델 - 하드웨어 공동 특성화 (model-hardware co-characterization) 를 통한 저비용 VLA 배포를 위한 체계적인 분석을 제시합니다. 먼저, CET (Cost, Energy, Time) 하에서 크로스 가속러더 보드를 구축하고 모델 - 하드웨어 쌍을 평가하여, 플래그십 GPU 보다 비용/에너지 효율성이 더 높으면서도 제어율 제약 조건을 충족할 수 있는 적정 규모의 엣지 디바이스가 있음을 보여줍니다. 둘째, 심층 프로파일링을 통해 계산량에 제한받는 VLM 백본 (compute-bound VLM backbone) 을 이어 메모리량에 제한받는 액션 전문가 (memory-bound Action Expert) 를 따르는 일관된 두 단계 추론 패턴을 발견하며, 이는 단계별 과소 활용과 하드웨어 비효율성을 유발합니다. 마지막으로 이러한 통찰을 바탕으로 확산 중복성을 줄이고 비동기 파이프라인 병렬화를 가능하게 하는 DP-Cache 와 V-AEFusion 을 제안하여, GPU 에서 최대 2.9 배의 속도 향상과 엣지 NPU 에서 6 배의 속도 향상을 달성하면서도 성공률 저하는 미미한 수준으로 유지합니다. 예시 보드 웹사이트는 https://vla-leaderboard-01.vercel.app/ 에서 확인 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

XPU 를 통한 비전 - 언어 - 행동 (VLA) 모델 특성화: 온로봇 배포를 위한 제약 조건 및 가속화

요약

핵심 포인트

댓글