양자화된 프리필링(Prefilling)과 정밀한 디코딩(Decoding)을 옹호하는 흥미로운 논문

다른 사람들의 테스트에 따르면, NVFP4 디코딩(decoding) 속도는 다른 방식들과 비교했을 때 사람들이 더 높은 정점(예를 들어, 메모리 대역폭 활용도 85-90%)에 도달할 수 있게 해주지는 못했습니다. 개발의 흐름은 병렬 디코딩(parallel decoding)과 같은 다른 종류의 최적화로 기울고 있습니다. 또한 MoE(Mixture of Experts) 시대에는 MoE가 활성 밀집(active dense) 모델 대비 tg 속도 페널티를 겪기 때문에 측정의 어려움도 있습니다. 프리필(pre-fill) 속도 향상은 얻을 수 있겠지만, tg 성능이 놀라울 정도로 좋지는 않으며 양자화(quantization) 처리 방식에 따라 손실이 발생할 수 있습니다.

이 논문은 단순한 내용을 공유합니다. 우리는 (이론적으로 4배의) 프리필 이득을 위해 W4A4를 사용해야 하며, 디코딩 시에는 더 많은 오류가 누적될 수 있으므로 W4A4를 사용해서는 안 된다는 것입니다. 흥미롭게도, 아마 일부 추론 엔진(inference engines)은 이미 이 아이디어를 적용했을지도 모릅니다.

https://arxiv.org/abs/2605.20315

"프리필링(Prefilling)과 디코딩(decoding)은 서로 다른 계산 병목 현상(computational bottlenecks)과 양자화 중복성(quantization redundancy) 동작을 보입니다. 프리필링은 고정된 입력 시퀀스를 병렬로 처리하며 공격적인 양자화에 적합합니다. 즉, 양자화 오류가 동일한 프리필 패스 내의 미래 입력에 재귀적으로 영향을 미치지 않으며, 긴 에이전틱 컨텍스트(agentic contexts)는 종종 상당한 중복성을 포함하기 때문입니다. 반면, 디코딩은 각 샘플링된 토큰이 생성 과정에 영향을 미치기 때문에 오류에 훨씬 더 민감합니다."

"가중치 및 활성화 양자화(Weight-and-activation quantization)는 계산 집약적인(compute-bound) 프리필링을 가속화할 수 있지만, 전체 자기회귀(autoregressive) 과정에 공격적인 W4A4 양자화를 적용하는 것은 취약합니다. 활성화 오류가 토큰 선택을 방해하고 생성 과정 동안 누적될 수 있기 때문입니다 [5, 37, 46]. 따라서 Mix-Quant는 컨텍스트 인코딩(context encoding)만을 양자화하는 반면, 디코딩은 원래의 고정밀 경로를 유지합니다."

NVFP4 외에도, 이 논문의 일반적인 아이디어는 중요해 보입니다. 저정밀도 연산(Low precision crunching)은 유용하며, 스트리밍(streaming)보다 손실이 적습니다.

Insights

양자화된 프리필링(Prefilling)과 정밀한 디코딩(Decoding)을 옹호하는 흥미로운 논문

요약

핵심 포인트

댓글

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트

Tesla 실적 발표 관련 아이언 콘도르 (Iron Condor) 전략, 3일 만에 67% 수익 가능성

T. Rowe Price Group의 실적 발표를 앞두고 알아야 할 사항

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트

Tesla 실적 발표 관련 아이언 콘도르 (Iron Condor) 전략, 3일 만에 67% 수익 가능성

T. Rowe Price Group의 실적 발표를 앞두고 알아야 할 사항