최근 eBay 특가 상품인 W6800(개조된 V620)의 벤치마크 결과
요약
eBay에서 판매되는 개조된 AMD Radeon Pro W6800(V620 기반)의 성능을 벤치마크한 결과입니다. W6800 펌웨어 플래싱을 통해 디스플레이 출력을 지원하며, Vulkan 및 ROCm 백엔드를 이용한 Qwen 2.5 27B 모델의 추론 성능을 측정했습니다.
핵심 포인트
- W6800 펌웨어로 플래싱하여 mini-displayport 출력 가능
- Vulkan 및 ROCm 백엔드 환경에서 Qwen 2.5 27B 모델 테스트
- ROCm 환경이 Vulkan 대비 더 높은 추론 성능(t/s)을 보임
- 개조된 하드웨어를 활용한 가성비 AI 연산 환경 구축 사례
최근 eBay에서 두 가지 주요 변경 사항이 적용된, 약간의 프리미엄이 붙은 개조된 V620을 판매하는 사람이 있었습니다.
W6800 펌웨어로 플래싱(Flashed)되어 mini-displayport 출력이 가능합니다. 불행히도 이로 인해 일부 연산 코어(compute cores)가 비활성화되지만, W6800은 더 높은 부스트 클럭(boost clocks)을 가집니다.
블로워 팬(Blower fan)과 커스텀 3D 프린팅된 ABS 슈라우드(shroud)가 장착되었습니다. 카드 자체에 내장된 팬 제어 기능은 없지만, 팬을 메인보드 팬 헤더(fan header)나 외부 팬 컨트롤러에 연결할 수 있습니다.
여분의 Micro ATX PC가 있어서 하나 구매하기로 결정했습니다. 이 PC는 내장 그래픽이 없고 카드 하나만 장착할 수 있어서, 헤드리스(headless) 데이터센터 카드를 작동시키는 것이 어려웠을 것입니다. V620은 연산 성능이 더 높으므로 실행 가능하다면 아마 더 좋은 거래일 것이며, CUDA 생태계를 유지하고 싶다면 Tesla V100이 여전히 최고의 선택입니다. 그럼에도 불구하고, 여기 벤치마크 결과가 있습니다.
Qwen 3.6 27B @ Q6_K
Vulkan (공식 llama.cpp 빌드)
ggml_vulkan: Found 1 Vulkan devices: ggml_vulkan: 0 = AMD Radeon Pro W6800 (RADV NAVI21) (radv) | uma: 0 | fp16: 1 | bf16: 0 | warp size: 32 | shared memory: 65536 | int dot: 1 | matrix cores: none | model | size | params | backend | ngl | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | Vulkan | -1 | pp1024 | 297.94 ± 0.30 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | Vulkan | -1 | tg256 | 20.35 ± 0.00 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | Vulkan | -1 | pp1024 @ d8192 | 232.40 ± 0.32 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | Vulkan | -1 | tg256 @ d8192 | 19.70 ± 0.00 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | Vulkan | -1 | pp1024 @ d16384 | 185.07 ± 0.12 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | Vulkan | -1 | tg256 @ d16384 | 19.18 ± 0.00 |
ROCm (lemonade ROCm 나이틀리 빌드)
ggml_cuda_init: 발견된 ROCm 장치 1개 (총 VRAM: 32095 MiB): Device 0: AMD Radeon Pro W6800, gfx1030 (0x1030), VMM: 없음, Wave Size: 32, VRAM: 32095 MiB | 모델 | 크기 | 파라미터 수 | 백엔드 | ngl | 테스트 | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | ROCm | -1 | pp1024 | 265.71 ± 0.02 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | ROCm | -1 | tg256 | 18.69 ± 0.01 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | ROCm | -1 | pp1024 @ d8192 | 246.81 ± 0.03 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | ROCm | -1 | tg256 @ d8192 | 18.15 ± 0.02 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | ROCm | -1 | pp1024 @ d16384 | 230.19 ± 0.06 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | ROCm | -1 | tg256 @ d16384 | 17.64 ± 0.02 |
AMD 사용자라면 놀랍지 않겠지만, Vulkan이 TG에서 더 빠르고 ROCm은 특히 긴 컨텍스트 깊이(long context depths)에서 PP가 더 빠릅니다. 이제 24GB VRAM급과 비교할 수 있도록 Q4 벤치마크를 살펴보겠습니다.
Qwen 3.6 27B @ Q4_K_XL
Vulkan (official llama.cpp build)
ggml_vulkan: Found 1 Vulkan devices: ggml_vulkan: 0 = AMD Radeon Pro W6800 (RADV NAVI21) (radv) | uma: 0 | fp16: 1 | bf16: 0 | warp size: 32 | shared memory: 65536 | int dot: 1 | matrix cores: none | model | size | params | backend | ngl | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | Vulkan | -1 | pp1024 | 353.85 ± 0.04 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | Vulkan | -1 | tg256 | 24.73 ± 0.00 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | Vulkan | -1 | pp1024 @ d8192 | 265.14 ± 0.34 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | Vulkan | -1 | tg256 @ d8192 | 23.77 ± 0.00 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | Vulkan | -1 | pp1024 @ d16384 | 205.36 ± 0.67 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | Vulkan | -1 | tg256 @ d16384 | 23.03 ± 0.00 |
ROCm (lemonade ROCm nightly build)
ggml_cuda_init: found 1 ROCm devices (Total VRAM: 32095 MiB): Device 0: AMD Radeon Pro W6800, gfx1030 (0x1030), VMM: no, Wave Size: 32, VRAM: 32095 MiB | model | size | params | backend | ngl | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | ROCm | -1 | pp1024 | 328.96 ± 0.09 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | ROCm | -1 | tg256 | 21.40 ± 0.01 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | ROCm | -1 | pp1024 @ d8192 | 298.96 ± 0.01 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | ROCm | -1 | tg256 @ d8192 | 20.68 ± 0.03 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | ROCm | -1 | pp1024 @ d16384 | 275.02 ± 0.03 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | ROCm | -1 | tg256 @ d16384 | 20.02 ± 0.03 |
불행히도 llama-bench는 llama-server에 비해 기능 면에서 크게 뒤처지기 때문에, MTP (Multi-Token Prediction)를 벤치마크하는 데 사용할 수 없었습니다. 하지만 이는 엄청난 향상입니다! 토큰 생성량 (TG)이 약 75-100% 증가했습니다. 이 정도면 이 카드를 매우 실용적으로 사용할 수 있게 됩니다.
V620이 더 좋은 거래가 된 지금, 이것이 단일 MI50과 비교했을 때 어떤 성능을 보여줄지 궁금합니다. 하지만 제가 찾은 모든 벤치마크는 최소 2 x MI50 구성에 대한 것이었습니다.
제출자: /u/draetheus
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기