arXiv논문2026. 05. 05. 13:29

ViM-Q: FPGA 에 대한 Vision Mamba 모델 추론을 위한 확장 가능한 알고리즘·하드웨어 공동 설계

요약

ViM-Q는 Vision Mamba(ViM) 모델의 추론을 위해 FPGA 하드웨어와 알고리즘을 공동 설계한 확장 가능한 솔루션입니다. 기존 연구에서 직면했던 양자화 및 메모리 접근 패턴 문제를 해결하기 위해, ViM-Q는 동적 토큰당 활성화 양자화와 커스텀 4-bit 중량 양자화를 결합한 하드웨어 감성 양자화 스키마를 도입했습니다. 이 솔루션은 LUT 기반의 선형 엔진과 파이프라인 SSM 엔진을 갖춘 FPGA 가속기로 구현되었으며, 실제 테스트에서 GPU 대비 높은 속도 향상 및 에너지 효율 개선을 입증하여 엣지 장치 배포의 실현 가능성을 제시합니다.

핵심 포인트

ViM-Q는 Vision Mamba(ViM) 모델 추론을 위한 알고리즘과 FPGA 하드웨어를 공동 설계한 솔루션이다.
하드웨어 감성 양자화 스키마를 통해 동적 활성화 이상치 문제를 완화하고, 커스텀 4-bit 중량 양자화를 적용했다.
FPGA 가속기는 LUT 기반의 선형 엔진과 파이프라인 SSM 엔진을 포함하여 높은 효율성을 달성한다.
ViM-Q는 다양한 차원 및 해상도에 맞춰 런타임 구성이 가능한 적응형 아키텍처를 제공한다.
실제 구현 결과, 저 배치 추론에서 GPU 대비 평균 4.96배의 속도 향상과 59.8배의 에너지 효율 개선을 달성했다.

State Space Models (SSM) 의 선형 복잡도를 활용하여 Transformer 보다 효율적인 ViM (Vision Mamba) 모델을 제공하지만, FPGA 상에 이를 효과적으로 배포하는 것은 여전히 도전과제입니다. 선형 레이어는 정적 양자화 (static quantization) 를 무효화하는 동적 활성화 이상치 (dynamic activation outliers) 와 싸우며, 균일 양자화는 낮은 비트 폭에서 중량 분포를 포착하지 못합니다. 또한, 연산 스캔 (associative scan) 은 GPU 에서 SSM 을 가속화하지만, 그 메모리 접근 패턴은 FPGA 가 요구하는 스트리밍 데이터플로우와 맞지 않습니다.

이러한 도전과제를 해결하기 위해 우리는 엣지 상의 ViM 추론을 위한 확장 가능한 알고리즘·하드웨어 공동 설계인 ViM-Q 를 제시합니다. 우리는 동적 토큰당 활성화 양자화와 채널당 평활화 (per-channel smoothing) 를 결합한 하드웨어 감성 양자화 스키마를 소개하여 이상치를 완화하고, 커스텀 4-bit per-block Additive Power-of-Two (APoT) 중량 양자화를 도입했습니다. 모델은 Lookup-Table (LUT) 단위를 사용하여 곱셈을 시프트·추가 연산으로 대체하는 선형 엔진과 상태 차원을 병렬화하면서 순차적 회귀를 보존하는 세밀한 파이프라인 SSM 엔진을 갖춘 런타임 파라미터화 가능한 FPGA 가속기로 배포되었습니다. 특히, 하드웨어는 ViM 가족의 다양한 차원과 입력 해상도에 걸쳐 런타임 구성을 지원하여 적응합니다.

AMD ZCU102 FPGA 상에 구현된 ViM-Q 는 ViM-tiny 의 저 배치 추론에서 양자화된 NVIDIA RTX 3090 GPU 기준 대비 평균 4.96 배 속도 향상과 59.8 배 에너지 효율 향상을 달성했습니다. 이 공동 설계는 자원 제약이 있는 엣지 장치에 ViM 모델을 배포하는 실현 가능한 경로를 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

ViM-Q: FPGA 에 대한 Vision Mamba 모델 추론을 위한 확장 가능한 알고리즘·하드웨어 공동 설계

요약

핵심 포인트

댓글