arXiv논문2026. 05. 14. 04:25

당신의 Block Floating Point Scale을 검색하세요!

요약

본 연구는 생성 모델 추론 가속화를 위한 표준 기술인 양자화(Quantization)의 한계를 극복하고자 합니다. 기존 BFP 스케일 선택 방식이 최적화되지 않을 수 있다는 문제점을 지적하며, 주어진 분포에서 양자화 오차를 최소화하는 새로운 전략인 ScaleSearch를 제안합니다. ScaleSearch는 미세 조정 검색을 통해 가수부 비트(mantissa bits)를 활용하여 스케일을 결정하고, 이를 기존 PTQ 및 저정밀도 어텐션 방법론에 통합함으로써 성능 향상을 입증했습니다.

핵심 포인트

ScaleSearch: 양자화 오차 최소화를 위한 새로운 스케일 인자 선택 전략을 제안합니다.
미세 조정 검색(fine-grained search)을 통해 가수부 비트(mantissa bits)를 활용하여 최적의 스케일을 찾습니다.
ScaleSearch는 PTQ 및 저정밀도 어텐션 등 기존 양자화 방법론과 통합되어 성능 향상을 가져옵니다.
ScaleSearchAttention 알고리즘은 NVFP4 기반 어텐션을 개선하고, Llama 3.1 70B 모델의 PPL을 최대 0.77포인트까지 개선하는 결과를 보였습니다.

양자화 (Quantization)는 더 빠른 저정밀도 연산 (low-precision computations)과 메모리 전송 (memory transfers) 감소를 가능하게 함으로써 생성 모델 (generative models)의 추론 (inference)을 가속화하는 표준 기술로 부상했습니다. 최근 GPU 가속기들은 마이크로스케일링 (microscaling) Block Floating Point (BFP) 형식을 일급 객체 (first-class)로 지원하기 시작했습니다. 표준 BFP 알고리즘은 블록의 최대 크기 (maximum magnitude)를 기반으로 고정된 스케일 (scale)을 사용합니다. 우리는 이러한 스케일 선택이 양자화 오차 (quantization errors) 측면에서 최적화되지 않을 수 있음을 관찰했습니다. 본 연구에서는 이러한 스케일 인자 (scale factors)를 선택하기 위한 대안적인 전략인 ScaleSearch를 제안합니다. 이는 주어진 분포에 대해 양자화 오차를 최소화하기 위해 마이크로스케일링 형식의 가수부 비트 (mantissa bits)를 활용하는 미세 조정 검색 (fine-grained search)을 사용합니다. ScaleSearch는 Post Training Quantization (PTQ) 및 저정밀도 어텐션 (low-precision attention)과 같은 기존 양자화 방법론과 통합될 수 있으며, 이들의 성능을 향상시키는 것으로 나타났습니다. 또한, 우리는 ScaleSearch와 조정된 이전 기술들을 사용하여 인과적 언어 모델링 (causal language modeling)에서 성능 손실을 거의 0에 가깝게 보장하는 가속화된 NVFP4 기반 어텐션 알고리즘인 ScaleSearchAttention을 소개합니다. 실험 결과, ScaleSearch는 NVFP4의 양자화 오차를 27% 줄이고, MATH500 (Qwen3-8B)에 대한 언어 모델 PTQ 성능을 최대 15포인트 향상시키는 반면, ScaleSearchAttention은 Llama 3.1 70B의 Wikitext-2 PPL을 최대 0.77포인트 개선합니다. 제안된 방법들은 양자화 정확도 향상을 제공하면서도 베이스라인 성능과 밀접하게 일치합니다.

AI 자동 생성 콘텐츠

원문 바로가기

당신의 Block Floating Point Scale을 검색하세요!

요약

핵심 포인트

댓글