arXiv논문2026. 06. 03. 11:27

ARM 기반 HMPSoC에서의 빠른 Transformer 추론

요약

ARM 기반 엣지 디바이스에서 Transformer 모델의 효율적인 추론을 위해 ARM Compute Library(ARM-CL) 내 새로운 커널을 구현했습니다. CPU와 GPU를 협력적으로 활용하는 방식을 통해 기존 방식 대비 최대 3배 빠른 속도와 지연 시간 감소를 달성했습니다.

핵심 포인트

ARM-CL 내 새로운 Transformer 커널 구현
ARM 기반 임베디드 보드에서 추론 속도 최대 3배 향상
CPU와 GPU의 협력적 실행을 통한 지연 시간 15.72% 추가 감소
자원 제한적인 엣지 디바이스용 Transformer 최적화

Transformer 모델은 머신러닝 (ML) 작업에 대해 새로운 성능 표준을 세웠습니다. 그러나 클라우드 없는 온칩 (on-chip) Transformer 추론을 위해 자원이 제한된 엣지 디바이스 (edge devices)에 자원 집약적인 모델을 배포하는 것은 여전히 어려운 과제로 남아 있습니다. ARM Compute Library (ARM-CL) 프레임워크는 ARM 기반 엣지 디바이스에서 저지연 CNN 추론을 제공하지만, Transformer 추론에 대한 지원은 부족합니다. 본 연구에서는 네이티브 Transformer 실행을 지원하기 위해 ARM-CL 내에 여러 새로운 Transformer 커널 (kernels)을 구현합니다. 확장된 ARM-CL은 ARM 기반 임베디드 보드에서 최신 CPU/GPU 구현 방식과 비교하여 최대 3배 더 빠른 Transformer 추론을 달성합니다. 나아가, 엣지 디바이스에 전력을 공급하는 이기종 멀티프로세서 시스템 온 칩 (HMPSoCs)은 임베디드 CPU와 GPU를 모두 제공합니다. 우리는 메모리 집약적인 연산은 CPU에서 실행하고, 병렬화가 용이한 연산 집약적인 연산에는 GPU를 활용하는 협력적 CPU-GPU Transformer 추론을 소개합니다. 최소한의 오버헤드로 구현된 이 협력적 실행 방식은 ARM-CL 상의 최적의 단일 프로세서 추론과 비교하여 Transformer 추론 지연 시간을 최대 15.72%까지 추가로 감소시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

ARM 기반 HMPSoC에서의 빠른 Transformer 추론

요약

핵심 포인트

댓글