Blackwell에서 INT8 Q/DQ가 TRT 10 + auto-FP16보다 1.8배 우수함 — 실용적인 보정(calibration) 작성기 - Insights | Molayo

TRT 11은 정밀도 빌더 플래그(kFP16 등)를 제거하고 ONNX에서 명시적 Q/DQ를 강제합니다. RTX 5090에서는 이것이 auto-FP16 빌드가 접근하지 못했던 5세대 Tensor Core의 전용 INT8 경로에 실제로 매핑됩니다. NVIDIA ModelOpt와 실제 데이터로부터 수집한 1,500개의 계층화된 보정 샘플을 사용하여 188MB FP32 ONNX(경쟁 수준의 쇼기 평가 네트워크)에 적절한 PTQ를 수행했습니다. 양자화 작업은 56초가 소요되었습니다. 결과: 동일 하드웨어에서 이전 TRT 10 + auto-FP16 기준치인 39.5k 대비 71k NPS입니다. 측정 가능한 성능 손실은 없었으며, 최신 Suisho11 개발 빌드에 대한 승리 2회를 포함하여 공공 Floodgate 플레이 24시간 동안 17W-16L를 기록했습니다. 보정 세트 설계, ModelOpt 호출 및 벤치마크가 담긴 작성기는 다음과 같습니다: https://media.patentllm.org/blog/gpu-inference/int8-quantizing-shogi-engine-tensorrt-11 /u/Impressive_Tower_550 제출 [link] [comments]

Insights

Blackwell에서 INT8 Q/DQ가 TRT 10 + auto-FP16보다 1.8배 우수함 — 실용적인 보정(calibration) 작성기

요약

핵심 포인트

댓글

나의 개인적인 AI 벤치마크: “합스부르크 턱을 가진 개구리의 SVG를 생성하라”

Version 1.1에서 늘린 것은 기능이 아니라 가시성이었다

아무도 이야기하지 않는 AI 포지셔닝 위기

Vercel AI Gateway에서 Qwen 3.8 Max를 이제 사용할 수 있습니다

Version 1.1에서 늘린 것은 기능이 아니라 가시성이었다

아무도 이야기하지 않는 AI 포지셔닝 위기

Vercel AI Gateway에서 Qwen 3.8 Max를 이제 사용할 수 있습니다