arXiv논문2026. 06. 23. 11:17

Fast-TurboQuant: 곱셈이 필요 없는 온라인 벡터 양자화 (Vector Quantization) 접근 방식

요약

Fast-TurboQuant는 LLM의 메모리 병목을 해결하기 위해 곱셈 없이 덧셈만으로 수행되는 새로운 벡터 양자화 방식을 제안합니다. 기존 TurboQuant의 무거운 회전 행렬 대신 빠른 Walsh-Hadamard 변환을 사용하여 연산 복잡도를 획기적으로 낮췄습니다.

핵심 포인트

밀집 행렬 대신 빠른 Walsh-Hadamard 변환(FWHT)을 사용하여 연산 효율 극대화
하드웨어 곱셈기 없이 덧셈만으로 동작하여 엣지 디바이스 배포에 유리
OpenAI-3 Large 임베딩 기준, 순차 실행 시 알고리즘 속도 19.7배 향상
차원 확장 기법을 통해 평균 제곱 오차(MSE) 감소 및 Recall@10 성능 향상

대규모 언어 모델 (LLM)이 확장됨에 따라, 키-값 캐시 (key-value caches) 및 검색 증강 생성 (Retrieval-Augmented Generation, RAG) 시스템을 위한 메모리 대역폭이 중요한 병목 현상이 되고 있습니다. 1비트 양자화 (1-bit quantization)가 이러한 제약을 해결하지만, 최근의 TurboQuant는 양자화 전 벡터 분포를 조정하기 위해 밀집된 무작위 회전 행렬 (dense random rotation matrices)에 의존합니다. 이러한 투영 (projection)은 임베딩당 수백만 번의 부동 소수점 곱셈을 요구하며, 이로 인해 제약이 있는 엣지 실리콘 (edge silicon)에 배포하기 어렵습니다. 우리는 밀집 행렬을 구조화된 빠른 Johnson-Lindenstrauss 변환 (fast Johnson-Lindenstrauss transform)으로 대체하는 곱셈이 필요 없는 (multiplier-free) 투영 아키텍처인 Fast-TurboQuant를 소개합니다. Rademacher 위상 반전 (Rademacher phase inversion)을 적용한 후 빠른 Walsh-Hadamard 변환 (fast Walsh-Hadamard transform, FWHT)을 수행함으로써, 이 방법은 가우시안 투영 (Gaussian projections) 없이도 스칼라 Lloyd-Max 양자화 (scalar Lloyd-Max quantization)의 전제 조건을 충족하기 위해 하위 가우시안 집중 (sub-Gaussian concentration)을 활용합니다. 이러한 대체는 산술 복잡도를 오직 덧셈으로만 줄여 하드웨어 곱셈기를 제거합니다. DBpedia OpenAI-3 Large 임베딩에 대한 평가 결과, 순차 실행 시 19.7배의 알고리즘 속도 향상을 입증했습니다. 또한, FWHT 제로 패딩 (zero-padding)으로 인한 차원 확장 (dimension expansion)은 평균 제곱 오차 (mean squared error, MSE)를 줄이고 Recall@10을 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

Fast-TurboQuant: 곱셈이 필요 없는 온라인 벡터 양자화 (Vector Quantization) 접근 방식

요약

핵심 포인트

댓글