본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 11. 04:49

Blackwell에서 INT8 Q/DQ가 TRT 10 + auto-FP16보다 1.8배 우수함 — 실용적인 보정(calibration) 작성기

요약

최신 TensorRT 11 빌드는 명시적인 INT8 양자화(Q/DQ)를 강제하여, 기존 auto-FP16 방식보다 성능이 우수함을 입증했습니다. RTX 5090에서 수행된 테스트 결과, 동일 하드웨어에서 이전 대비 약 1.8배 향상된 추론 속도(71k NPS vs 39.5k NPS)를 기록하며, 최신 GPU 아키텍처의 전용 INT8 경로 활용 가능성을 보여주었습니다.

핵심 포인트

  • TensorRT 11은 명시적 INT8 양자화를 강제하여 성능을 개선했습니다.
  • INT8 Q/DQ 방식이 auto-FP16보다 추론 속도에서 약 1.8배 우수합니다.
  • NVIDIA ModelOpt와 보정 샘플을 사용한 PTQ 과정이 핵심입니다.
  • 최신 GPU 아키텍처의 전용 INT8 경로 활용이 가능해졌습니다.

TRT 11은 정밀도 빌더 플래그(kFP16 등)를 제거하고 ONNX에서 명시적 Q/DQ를 강제합니다. RTX 5090에서는 이것이 auto-FP16 빌드가 접근하지 못했던 5세대 Tensor Core의 전용 INT8 경로에 실제로 매핑됩니다. NVIDIA ModelOpt와 실제 데이터로부터 수집한 1,500개의 계층화된 보정 샘플을 사용하여 188MB FP32 ONNX(경쟁 수준의 쇼기 평가 네트워크)에 적절한 PTQ를 수행했습니다. 양자화 작업은 56초가 소요되었습니다. 결과: 동일 하드웨어에서 이전 TRT 10 + auto-FP16 기준치인 39.5k 대비 71k NPS입니다. 측정 가능한 성능 손실은 없었으며, 최신 Suisho11 개발 빌드에 대한 승리 2회를 포함하여 공공 Floodgate 플레이 24시간 동안 17W-16L를 기록했습니다. 보정 세트 설계, ModelOpt 호출 및 벤치마크가 담긴 작성기는 다음과 같습니다: https://media.patentllm.org/blog/gpu-inference/int8-quantizing-shogi-engine-tensorrt-11 /u/Impressive_Tower_550 제출 [link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0