본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 29. 11:19

단계가 중요하다: 모바일 SoC에서의 이기종 시각-언어(Vision-Language) 추론 특성 분석

요약

Snapdragon 8 Elite SoC 환경에서 모바일 VLM 추론의 단계별 하드웨어 특성을 분석한 연구입니다. NPU 활용 시 프리필과 디코드 단계의 성능 차이, 열 안정성 및 에너지 효율성을 검증하고 최적화된 포팅 방법을 제시합니다.

핵심 포인트

  • Snapdragon 8 Elite 기반 VLM 추론의 단계별 성능 및 에너지 특성 분석
  • NPU 사용 시 프리필 단계에서 1.64배, 디코드 단계에서 1.18배 속도 향상
  • 시각 인코더의 NPU 활용 시 CPU 대비 20~45배의 압도적 성능 향상
  • NPU 최적화를 통해 정상 상태 온도를 10.47°C 낮추고 에너지 2.52배 절감
  • 그래프 재작성을 통해 미지원 인코더의 QNN 경로 최적화 및 속도 향상 가능

최근 스마트폰급 모바일 SoC는 온디바이스 시각-언어 모델 (VLM) 추론을 위한 실질적인 NPU 실행 경로를 제공하지만, 개발자들은 여전히 이기종 백엔드 전반에 걸쳐 VLM 파이프라인을 매핑하기 위한 단계별 (phase-level) 가이드가 부족한 실정입니다. 본 연구에서는 Qualcomm SM8750 (Snapdragon 8 Elite) 상에서의 VLM 추론에 대한 하드웨어 인 더 루프 (hardware-in-the-loop) 특성 분석을 제시하며, 여기에는 단계별 처리량 (throughput), 캐시 상태 (cache-state) 효과, 100회 실행에 따른 열 안정성, 에너지, 이기종 CPU/NPU 파이프라인 구성, 그리고 시각적 토큰 예산 (visual-token-budget) 민감도가 포함됩니다. FastVLM-0.5B를 엔드 투 엔드 (end-to-end) 사례 연구로 사용하고, 4개의 아키텍처 제품군에 걸친 인코더 전용 (encoder-only) 측정을 병행한 결과, '단계가 중요하다'는 점을 확인했습니다. NPU 실행은 단계에 따라 크게 달라지며, 프리필 (prefill) 단계에서는 1.64배의 속도 향상을 제공하지만 디코드 (decode) 단계에서는 1.18배에 그치는 반면, 시각 인코더 (vision encoders)는 CPU 대비 20~45배의 속도 향상을 달성합니다. 이러한 이점은 정상 상태 온도(steady-state temperature)를 10.47°C 낮추고 에너지를 2.52배 절감하여, 상시 작동 (always-on) 환경에서 열 쓰로틀링 (thermal throttling)을 방지하는 결과로 이어집니다. 마지막으로, 4단계 그래프 재작성 (graph rewrite)을 통해 Phi-3.5-V와 같이 이전에 지원되지 않던 인코더들이 최대 22배의 속도 향상과 함께 QNN 경로에 도달할 수 있음을 보여주며, 모바일 VLM 배포를 위한 실질적인 포팅 레시피를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0