ReSET: 단계 인지 온도 스케일링(Step-Aware Temperature Scaling)을 통한 정확한 지연 시간 민감형 NVFP4 추론
요약
NVFP4 저정밀도 양자화 사용 시 발생하는 추론 정확도 저하와 지연 시간 문제를 해결하기 위한 ReSET 기술을 제안합니다. 단계별 불확실성을 기반으로 디코딩 온도를 조절하고 최적화된 CUDA 커널을 설계하여 정확도와 속도를 동시에 개선했습니다.
핵심 포인트
- NVFP4 양자화 시 발생하는 토큰 샘플링 오류 분석
- 단계별 엔트로피 기반 온도 스케일링(ReSET) 제안
- 정확도를 최대 2포인트 향상시키며 지연 시간 문제 해결
- CUDA-core small-M 커널로 BF16 대비 약 2배 속도 향상
대규모 추론 모델 (LRMs)은 긴 중간 추론 흔적 (reasoning traces)을 생성함으로써 복잡한 문제 해결 능력을 향상시키지만, 이는 추론 비용을 상당히 증가시킵니다. NVFP4 추론은 하드웨어 지원 저정밀도 실행을 통해 계산 및 메모리 비용을 모두 줄일 수 있는 유망한 접근 방식을 제공합니다. 그러나 NVFP4를 LRMs에 직접 적용하면 두 가지 실질적인 한계가 발생합니다: 양자화 (quantization) 하에서 추론 정확도가 저하되며, 기존 NVFP4 커널은 소규모 배치 자기회귀 디코딩 (small-batch autoregressive decoding)에서 지연 시간 이점을 완전히 실현하지 못합니다. 본 연구에서는 추론 과정 중 토큰 수준의 불확실성 (uncertainty)에 미치는 NVFP4 양자화의 영향을 분석합니다. 우리는 양자화가 저엔트로피 (low-entropy) 심볼릭 토큰에서 잘못된 샘플링을 증가시키는 반면, 불확실성이 높은 추론 단계에서는 소수의 토큰에 과도하게 집중되게 만든다는 것을 보여줍니다. 이러한 관찰을 바탕으로, 우리는 단계 수준의 불확실성을 온라인으로 추정하고 토큰 수준 및 단계 수준 엔트로피 신호를 모두 사용하여 디코딩 온도 (decoding temperature)를 조정하는 추론 단계 엔트로피 기반 온도 스케일링 방법인 extbf{ReSET}을 제안합니다. 지연 시간 격차를 해결하기 위해, 우리는 지연 시간 민감형 자기회귀 디코딩을 위한 CUDA-core small-$M$ NVFP4 커널을 추가로 설계했습니다. 추론 벤치마크와 모델 규모 전반에 걸쳐, ReSET은 NVFP4 베이스라인 대비 NVFP4 추론 정확도를 최대 $\sim!$2 포인트 향상시킵니다. 우리의 CUDA-core small-$M$ 커널은 지연 시간 민감형 디코딩을 더욱 개선하여, NVFP4 vLLM 대비 커널 수준에서 최대 $2.5\times$의 속도 향상을, BF16 대비 약 $2\times$의 엔드투엔드 (end-to-end) 디코딩 속도 향상을 제공합니다. 코드는 https://github.com/aiha-lab/ReSET 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기