본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 06. 15. 09:09

vLLM을 위한 RDNA4 전용 Docker 이미지

요약

RDNA4 GPU 환경에서 vLLM의 성능을 극대화하기 위한 전용 Docker 이미지와 최적화 기술을 소개합니다. 커스텀 커널과 양자화 기술을 통해 처리량을 100% 이상 향상시킬 수 있는 방법을 제공합니다.

핵심 포인트

  • RDNA4 GPU에서 vLLM 처리량을 100% 이상 향상시키는 최적화 방법 제공
  • MXFP4_16 양자화 및 커스텀 커널을 통한 성능 최적화 지원
  • 자동 튜닝 어텐션 커널로 긴 컨텍스트 환경에서의 성능 개선
  • 다양한 RAM 환경 및 멀티/싱글 GPU 케이스 지원

당신은 빠른 성능을 기대하며 RDNA4를 구매했지만, vLLM에서는 그 성능이 나오지 않습니다. 저도 그 기분을 압니다. 기본 상태의 vLLM은 RDNA4에서 완전히 형편없습니다... 여기 해결책이 있습니다. 현재 이전의 커스텀 커널(custom kernels)을 확장 및 포팅하여, 이전에는 사용할 수 없었던 모델들을 사용할 수 있게 만들고 있습니다: https://hub.docker.com/repository/docker/tcclaviger/vllm22/general 카드를 직접 읽어보거나 AI에게 요약을 시켜보세요. 어쨌든 이 방식은 RDNA4에서 기본 vLLM 대비 처리량(throughput)을 100% 이상 향상시킬 수 있는 3가지 튜닝 포인트 중 2가지를 다룹니다. Tunableop은 직접 찾아내야 합니다 (또는 AI에게 물어보세요). 찾아내기 꽤 쉬우며, 여기서 --tune 플래그가 제공하는 GEMM 튜닝을 수행한 후에는 보통 약 5% 정도로 영향이 더 적습니다 (이미지 내에 이미 많은 RDNA4 최적화 설정이 포함되어 있습니다). 현재 메인라인 모델들을 위한 커스텀 5bpw 양자화기(quantizer)가 포함되어 있으며, 시간이 지남에 따라 더 추가될 예정입니다. CPU에서의 양자화, 멀티 GPU, 싱글 GPU, 대용량 RAM 또는 소용량 RAM 환경 등 거의 모든 케이스가 커버됩니다. 직접 시간을 내기 어렵거나 방법을 모르시는 분들을 위해, MXFP4_16 양자화(quantization)가 적용된 모델 링크를 여기에 게시하겠습니다. 시작은 다음과 같습니다: https://huggingface.co/tcclaviger/Step-3.7-Flash-240REAP-MXFP416 (이 모델은 fp8 kv를 위한 kv calibrated scales를 가지고 있습니다) https://huggingface.co/tcclaviger/gemma-4-31B-it-MXFP416-MTP https://huggingface.co/tcclaviger/Qwen3.6-27B-MXFP416-MTP https://huggingface.co/tcclaviger/Qwen3.6-35B-A3B-MXFP416-MTP 고지 사항: 저는 아무것도 판매하지 않습니다. 누구와도 제휴 관계가 없으며, 이것은 저의 취미 프로젝트입니다.

그저 RDNA 4를 빠르게 만드는 것뿐입니다, 받아들이든 말든 마음대로 하세요 😛

로드맵 (ROADMAP):

  • nvfp4 적용 디퀀트 (dequant) 커널
  • mxfp4 적용 디퀀트 (dequant) 커널
  • vLLM 기본값보다 빠른 커스텀 FP8 선형 (linear) 및 MoE 커널
  • RFP2 및 RFP3 2.72bwp 및 3.6bpw 커널, 튜너 (tuners), 그리고 양자화기 (quantizers)
  • 튜닝 및 양자화를 위한 확장된 모델 리스트 지원
  • 특정 bpw 값에서 다른 모든 4비트 커널을 압도하는, 4.5에서 6.5 bpw 범위의 우수한 4비트 기반 가변 bpw 커널 (이미 개발 완료되었으며 통합 필요)
  • RDNA4 및 Strix Halo 395+를 위한 특화된 지원 확장

포함 사항 (INCLUDED):

  • 자동 튜닝 어텐션 (attention) 커널 (긴 컨텍스트에서의 디코드 내구성에 대해 RDNA4에서 엄청난 성능 향상 제공)
  • --kv-cache-dtype fp8 고정: 이는 성능 향상이 아니라, 매트릭스 코어 (Matrix core) 사용을 허용함으로써 성능 저하 (regression)를 방지하기 위함입니다.
  • 5년 된 NVIDIA GPU를 대상으로 하는 기본값을 사용하지 않도록 기본 튜닝되지 않은 TRITON 통합 어텐션 (unified attention) 커널 수정
  • MXFP4_16 커널, 양자화기 (quantizer), 튜너 (tuner). Q4_NL, MXFP4, 그리고 GPTQ G16의 삼각 결합이라고 생각하세요.
  • FP8 Block 128 W8A8 튜너 및 설정 (FP8에서 양자화된 풀 어텐션 (full attention) 레이어에 유용함)

추신 (PS): 네, 결국 이미지를 다듬어서 약 33GB가 아닌 12GB 정도의 :latest 및 :dev 버전을 만들 예정입니다.

제출자: /u/Sea-Speaker1700 [link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0