arXiv논문2026. 06. 19. 11:03

CGLA 아키텍처 상에서의 에너지 효율적인 Whisper 내적 커널 오프로딩 설계 및 평가

요약

CGLA 아키텍처인 IMAX 상에서 Whisper 모델의 내적 커널을 효율적으로 오프로딩하는 설계 방안을 제안합니다. 커널 매핑과 버스트 스케줄링을 통해 에너지 효율을 극대화하며, 기존 Jetson AGX Orin 및 RTX 4090 대비 탁월한 에너지 효율성을 입증했습니다.

핵심 포인트

Whisper 내적 연산이 실행 시간의 약 90%를 차지하는 병목 지점임을 확인
커널 매핑, 로컬 메모리 최적화, 버스트 스케줄링을 통한 효율적 설계
IMAX 아키텍처가 RTX 4090 대비 약 10.48배 낮은 PDP 기록
tiny 모델 기반의 저전력 로컬 ASR 구현 가능성 제시

본 논문에서는 프로그래밍 가능한 거친 입도 선형 어레이 (Coarse-Grained Linear Arrays, CGLAs) 아키텍처인 IMAX 상에서 Whisper 내적 (dot-product) 커널 오프로딩을 구현하고 평가합니다. ARM Cortex-A72에서 Whisper-tiny.en 프로파일링을 수행한 결과, 내적 연산이 FP16 실행 시간의 90.6%, Q8_0 실행 시간의 87.1%를 차지하는 것으로 나타났습니다. 이러한 커널 병목 현상을 해결하기 위해, 우리는 커널 매핑 (kernel mapping), 로컬 메모리 크기 결정 (local-memory sizing), 그리고 버스트 스케줄링 (burst scheduling)을 결합하였습니다. 구현에는 인라인 FP16-to-FP32 변환, 64비트 데이터패스 상의 2-way SIMD FMA, 열 단위 멀티스레딩 (column-wise multithreading), 그리고 정렬된 벡터 세그먼트는 IMAX에서 실행되고 잔여 세그먼트는 호스트 CPU에서 동시에 실행되는 혼합 실행 (mixed execution) 방식이 사용되었습니다. 우리는 FPGA 프로토타입과 840MHz에서의 28nm ASIC 투영 모델을 통해 설계를 평가합니다. Whisper-tiny.en의 경우, 32KB 로컬 메모리와 버스트 길이 16을 결합했을 때 PDP (Power-Delay Product)와 EDP (Energy-Delay Product)가 최소화됩니다. TDP 기반의 교차 플랫폼 비교 하에서, 투영된 IMAX는 Whisper-tiny.en Q8_0에 대해 11.58J의 PDP를 기록하였으며, 이는 Jetson AGX Orin (27.16J)보다 2.35배 낮고 RTX 4090 (121.38J)보다 10.48배 낮습니다. 동일한 설계는 Whisper-base.en 및 Whisper-small.en으로 확장 가능하며, tiny 모델의 32KB 로컬 메모리 커버리지가 93.8%에서 base 및 small 모델의 약 66.5%로 감소함에 따라 PDP 격차는 좁아집니다. 이러한 결과는 IMAX를 tiny-모델 영역에서 낮은 PDP를 가진 로컬 ASR (Automatic Speech Recognition)을 위한 프로그래밍 가능한 아키텍처로 자리매김하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

CGLA 아키텍처 상에서의 에너지 효율적인 Whisper 내적 커널 오프로딩 설계 및 평가

요약

핵심 포인트

댓글