OrpQuant: Multiplier-Free Power-of-Two Transformer 양자화를 위한 기하학적 직교 잔차 투영
요약
OrpQuant는 엣지 디바이스 배포를 위해 MAC 연산을 비트 시프트로 대체하는 Power-of-Two 양자화 프레임워크를 제안합니다. 직교 잔차 투영(ORP) 기술을 통해 초저비트 양자화 시 발생하는 해상도 저하 문제를 해결하고 하드웨어 효율성을 극대화합니다.
핵심 포인트
- MAC 연산을 비트 시프트 및 덧셈으로 대체하여 하드웨어 효율성 증대
- 직교 잔차 투영(ORP)을 통한 고차원 특징 매니폴드 보존
- 분석적 솔버를 사용하여 LLaMA-2-7B 교정 시간을 15분으로 단축
- 3비트 환경에서 기존 MAC 기반 방식보다 우수한 성능 입증
- 28nm 노드 RTL 합성 결과 타이밍 병목 현상 완화 확인
Large Language Models (LLMs) 및 Vision Transformers (ViTs)를 엣지 디바이스(edge devices)에 배포하는 것은 메모리 제한과 밀집된 곱셈-누산 (Multiply-Accumulate, MAC) 어레이로 인해 발생하는 심각한 타이밍 병목 현상에 의해 크게 제약됩니다. 초저비트 (ultra-low bit) 영역에서, 로그 기반의 2의 거듭제곱 (Power-of-Two, PoT) 양자화는 MAC 연산을 비트 시프트 (bit-shifts)로 대체함으로써 하드웨어 효율적인 대안을 제공합니다. 그러나 비균일한 지수 격자 (exponential lattice)는 본질적으로 extbf{낮은 각도 해상도 영역 (Low Angular Resolution Regime)}에 의해 제한되며, 이러한 구조적 결함은 특히 4비트 미만 임계값에서 두드러져 고차원 특징 매니폴드 (high-dimensional feature manifolds)의 현저한 저하를 초래합니다. 이러한 기하학적 한계를 해결하기 위해, 우리는 알고리즘-하드웨어 공동 설계 (algorithm-hardware co-design) 프레임워크인 직교 잔차 투영 (Orthogonal Residual Projection, ORP)을 제안합니다. 양자화를 이중 기저 기하학적 투영 (dual-basis geometric projection)으로 공식화함으로써, ORP는 엄격하게 시프트 및 덧셈 (shift-and-add) 연산만을 사용하여 더 높은 해상도의 잔차 격자 (residual lattice)를 적응적으로 합성합니다. 또한, ORP의 분석적 솔버 (analytical solver)는 계산 집약적인 경사 하강법 기반 최적화 (gradient-based optimization)에 대한 실용적인 대안을 제공하여, LLaMA-2-7B의 전체 모델 교정 (calibration) 시간을 약 extbf{15분}으로 단축합니다. 광범위한 평가를 통해 다양한 모달리티 (modalities)에 걸친 ORP의 적용 가능성과 하드웨어 효율성을 입증했습니다. 3비트 (W3/A16) 제약 조건 하에서, ORP는 LLaMA-2-7B에 대해 6.10의 퍼플렉시티 (perplexity)를 달성하며, 비대칭 스케일링 (asymmetric scaling)에 의존하지 않고도 AWQ와 같은 기존의 MAC 집약적 베이스라인과 비교하여 우수한 성능을 보였으며, 4비트 시나리오에서도 경쟁력 있는 정확도를 유지합니다. 실리콘 레벨에서 28nm 노드의 표준 셀 RTL 합성 (standard-cell RTL synthesis) 결과, ORP가 밀집된 곱셈기 트리 (multiplier trees)와 관련된 타이밍 병목 현상을 효과적으로 완화함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기