본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 03. 11:27

ARM 기반 HMPSoC에서의 빠른 Transformer 추론

요약

ARM 기반 엣지 디바이스에서 Transformer 모델의 효율적인 추론을 위해 ARM Compute Library(ARM-CL) 내 새로운 커널을 구현했습니다. CPU와 GPU를 협력적으로 활용하는 방식을 통해 기존 방식 대비 최대 3배 빠른 속도와 지연 시간 감소를 달성했습니다.

핵심 포인트

  • ARM-CL 내 새로운 Transformer 커널 구현
  • ARM 기반 임베디드 보드에서 추론 속도 최대 3배 향상
  • CPU와 GPU의 협력적 실행을 통한 지연 시간 15.72% 추가 감소
  • 자원 제한적인 엣지 디바이스용 Transformer 최적화

Transformer 모델은 머신러닝 (ML) 작업에 대해 새로운 성능 표준을 세웠습니다. 그러나 클라우드 없는 온칩 (on-chip) Transformer 추론을 위해 자원이 제한된 엣지 디바이스 (edge devices)에 자원 집약적인 모델을 배포하는 것은 여전히 어려운 과제로 남아 있습니다. ARM Compute Library (ARM-CL) 프레임워크는 ARM 기반 엣지 디바이스에서 저지연 CNN 추론을 제공하지만, Transformer 추론에 대한 지원은 부족합니다. 본 연구에서는 네이티브 Transformer 실행을 지원하기 위해 ARM-CL 내에 여러 새로운 Transformer 커널 (kernels)을 구현합니다. 확장된 ARM-CL은 ARM 기반 임베디드 보드에서 최신 CPU/GPU 구현 방식과 비교하여 최대 3배 더 빠른 Transformer 추론을 달성합니다. 나아가, 엣지 디바이스에 전력을 공급하는 이기종 멀티프로세서 시스템 온 칩 (HMPSoCs)은 임베디드 CPU와 GPU를 모두 제공합니다. 우리는 메모리 집약적인 연산은 CPU에서 실행하고, 병렬화가 용이한 연산 집약적인 연산에는 GPU를 활용하는 협력적 CPU-GPU Transformer 추론을 소개합니다. 최소한의 오버헤드로 구현된 이 협력적 실행 방식은 ARM-CL 상의 최적의 단일 프로세서 추론과 비교하여 Transformer 추론 지연 시간을 최대 15.72%까지 추가로 감소시킵니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0