RTX Pro 4500 Blackwell 성능 수치

요약

RTX Pro 4500 Blackwell 32GB GPU의 성능을 기존 RTX 5060 Ti 16GB와 비교 분석한 글입니다. VRAM 용량 증가가 대규모 모델 구동 시 프롬프트 처리 및 토큰 생성 속도에 미치는 압도적인 성능 향상을 수치로 보여줍니다.

핵심 포인트

RTX Pro 4500 Blackwell은 32GB의 넉넉한 VRAM을 제공함
VRAM 내 모델 적재 시 시스템 RAM 접근이 불필요해져 성능 급증
MoE 모델 구동 시 프롬프트 처리는 최대 6배, 생성은 2.6배 빠름
VRAM 용량이 AI 모델 추론 성능의 핵심 요소임을 입증

RTX Pro 4500 Blackwell

약 한 달 전, 저는 Reddit의 친절한 분들에게 다음 AI 서버를 어디로 업그레이드하면 좋을지에 대한 조언을 구했습니다.

AMD Ryzen 7 7700 CPU, Corsair Vengeance RGB DDR5 5600MHz 32GB (2x16), RTX 5060 Ti 16GB

처음에는 더 큰 MoE (Mixture of Experts) 모델을 사용할 수 있도록 시스템 RAM을 96GB로 업그레이드하는 것을 고려했으나, 피드백은 명확하게 "무엇보다 VRAM (Video RAM)이 최고다"라는 방향이었습니다. 솔직히 말해서, 100B(1,000억 파라미터) 범위의 모델 크기에 대해서는 딱히 진행 중인 것이 많지 않습니다.

그래서 대신 GPU를 업그레이드하기로 결정했습니다. GPU를 RTX Pro 4500 Blackwell 32GB로 업그레이드하기로 한 선택은 분명히 옳았습니다. 더 큰 컨텍스트 (Context)와 KV 양자화 (KV quantization) 없이 모델 전체를 VRAM에 담는 것은 훨씬 더 쾌적한 경험입니다.

이 카드는 전문적인 사용 사례를 위해 제작된 탄탄한 카드이며, Reddit에서 이 카드에 대한 수치를 많이 보지 못했습니다. 따라서 이 카드에 관심이 있을 분들을 위해 몇 가지 성능 수치를 이곳에 공유하고자 합니다.

RTX 5060 Ti 16GB vs RTX Pro 4500 Blackwell 32GB

제가 RTX 5060 Ti 16GB GPU에서 RTX Pro 4500 Blackwell 32GB GPU로 넘어가고 있기 때문에, 주로 이 모델과 비교할 예정입니다.

사양을 비교하면, RTX Pro 4500 32GB는 RTX 5060 Ti 16GB보다 약 두 배 정도 빠릅니다. 이는 대부분 16GB VRAM 내에 들어가는 밀집 모델 (Dense models)을 비교할 때도 나타나는데, 프롬프트 처리 (Prompt processing)는 거의 두 배 가까이 빠르며, 토큰 생성 (Token generation)은 약 1.6~1.8배 더 빠릅니다.

16GB VRAM에 들어가지 않는 MoE 모델의 경우 차이는 더 커집니다. 이 경우 동일한 모델이 이제 32GB VRAM에 완전히 들어오기 때문에, 토큰 생성을 위해 시스템 RAM에 접근할 필요가 없다는 점 덕분에 추가적인 성능 향상이 발생합니다. 프롬프트 처리는 3~~6배 더 빠르며, 토큰 생성은 1.8~~2.6배 더 빠릅니다.

이 성능 수치들은 두 GPU 모두에서 동일한 모델과 양자화 (Quantization)를 사용하여 측정되었습니다.

모델 크기 (GB) | 5060Ti (pp512) | 5060Ti (tg128) | Pro 4500 Blackwell (pp512) | Pro 4500 Blackwell (tg128) | PP | TG
qwen36 27B IQ4_XS | 14.37 | 997.28 ± 14.35 | 25.13 ± 0.01 | 2022.54 ± 35.19 | 45.19 ± 0.50 | 2x | 1.8x
qwen36 35B.A3B MXFP4 | 20.21 | 926.47 ± 88.11 | 70.94 ± 1.31 | 5507.10 ± 101.16 | 159.81 ± 1.10 | 5.95x | 2.25x
gemma4 26B.A4B MXFP4 | 15.47 | 1307.35 ± 37.64 | 56.82 ± 0.26 | 7177.80 ± 103.91 | 144.74 ± 0.60 | 5.49x | 2.55x
ernie45 21B.A3B MXFP4 | 11.52 | 5214.56 ± 8.01 | 130.61 ± 2.05 | 10051.74 ± 174.12 | 214.73 ± 0.81 | 1.93x | 1.64x
Nemotron Cascade 2 30B.A3B MXFP4 | 18.65 | 1470.95 ± 14.16 | 63.22 ± 0.64 | 6709.37 ± 68.03 | 147.07 ± 2.46 | 4.56x | 2.33x
Tesselate OmniCoder 9B Q8 | 8.86 | 3287.54 ± 44.43 | 45.68 ± 0.17 | 6288.52 ± 166.39 | 83.98 ± 0.35 | 1.91x | 1.84
qwen35 4B Q4_K | 2.70 | 4802.47 ± 217.58 | 107.94 ± 1.46 | 9113.67 ± 692.41 | 180.27 ± 0.14 | 1.90x | 1.67x
qwen35 9B UD Q4_K_XL | 5.55 | 3115.93 ± 93.61 | 68.33 ± 0.34 | 5990.62 ± 255.66 | 119.69 ± 1.61 | 1.92x | 1.75x
GLM 4.7 Flash MXFP4 | 15.79 | 2063.49 ± 28.97 | 81.43 ± 1.23 | 6520.56 ± 120.91 | 149.59 ± 0.61 | 3.16x | 1.84x

(Ernie에 대해 언급하는 사람은 없지만, 요약(summarization), 개체 추출(entity extraction) 등 유사한 사용 사례에 매우 강력한 모델이며, 채팅에는 최적은 아니지만 데이터 처리에 탁월하고 속도가 매우 빠릅니다.)
모든 테스트는 Llama.cpp b9007을 사용하여 진행되었으며, 짧은 컨텍스트에서

또한

실제 테스트에서 Q6_K 양자화 및 30K 토큰(tokens) 조건의 Qwen 3.6 27B 모델과 비교했을 때, RTX 5090은 400W 및 600W 전력 소비 시의 RTX Pro 4500 Blackwell보다 토큰 생성 (token generation) 속도가 약 60%에서 70% 더 빠릅니다. 반면 4500은 200W로 작동합니다.
또한 테스트 결과가 보여주는 것은, 400W에서 600W 사이의 마지막 200W는 토큰 생성 성능을 약 7% 정도만 향상시킨다는 점입니다. 즉, 추가적인 200W에서 짜낼 수 있는 성능은 매우 적습니다. 전력 효율 (power efficiency) 측면에서는 RTX 5090의 전력 제한 (power limit)을 400 - 450W로 설정하는 것이 합리적일 것입니다.
요약하자면, 전력 소비가 2배일 때 5090은 4500보다 60% 더 빠르며, 전력 소비가 3배일 때 70% 더 빠릅니다.
만약 다른 모든 것보다 성능을 최우선으로 한다면 RTX 5090이 확실한 승자이지만, 전력 소비, 소음 수준 및 발열이 중요하고 24/7 사용 사례인 경우에는 RTX Pro 4500 Blackwell이 Nvidia 카드 중 최고의 전성비 (performance per watt)를 가진 카드 중 하나입니다. 이는 오직 RTX Pro 6000 Blackwell Max-Q 버전(완전히 다른 가격대임)에 의해서만 추월당합니다.
만약 업무를 보고 회의를 해야 하는 (가정용) 사무실 환경에서 몇 주 동안 24/7로 무언가를 실행할 계획이라면, RTX Pro 4500 Blackwell은 상당히 탄탄한 카드이며, 저는 지금까지 한 달 동안 사용하면서 꽤 만족해 왔습니다.
(비교에 사용된 RTX 5090에 대한 테스트 데이터는 댓글의 링크를 참조하세요.)
submitted by /u/UncleRedz to r/LocalLLaMA
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기