최근 eBay 특가 상품인 W6800(개조된 V620)의 벤치마크 결과

최근 eBay에서 두 가지 주요 변경 사항이 적용된, 약간의 프리미엄이 붙은 개조된 V620을 판매하는 사람이 있었습니다.

W6800 펌웨어로 플래싱(Flashed)되어 mini-displayport 출력이 가능합니다. 불행히도 이로 인해 일부 연산 코어(compute cores)가 비활성화되지만, W6800은 더 높은 부스트 클럭(boost clocks)을 가집니다.
블로워 팬(Blower fan)과 커스텀 3D 프린팅된 ABS 슈라우드(shroud)가 장착되었습니다. 카드 자체에 내장된 팬 제어 기능은 없지만, 팬을 메인보드 팬 헤더(fan header)나 외부 팬 컨트롤러에 연결할 수 있습니다.

여분의 Micro ATX PC가 있어서 하나 구매하기로 결정했습니다. 이 PC는 내장 그래픽이 없고 카드 하나만 장착할 수 있어서, 헤드리스(headless) 데이터센터 카드를 작동시키는 것이 어려웠을 것입니다. V620은 연산 성능이 더 높으므로 실행 가능하다면 아마 더 좋은 거래일 것이며, CUDA 생태계를 유지하고 싶다면 Tesla V100이 여전히 최고의 선택입니다. 그럼에도 불구하고, 여기 벤치마크 결과가 있습니다.
Qwen 3.6 27B @ Q6_K
Vulkan (공식 llama.cpp 빌드)
ggml_vulkan: Found 1 Vulkan devices: ggml_vulkan: 0 = AMD Radeon Pro W6800 (RADV NAVI21) (radv) | uma: 0 | fp16: 1 | bf16: 0 | warp size: 32 | shared memory: 65536 | int dot: 1 | matrix cores: none | model | size | params | backend | ngl | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | Vulkan | -1 | pp1024 | 297.94 ± 0.30 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | Vulkan | -1 | tg256 | 20.35 ± 0.00 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | Vulkan | -1 | pp1024 @ d8192 | 232.40 ± 0.32 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | Vulkan | -1 | tg256 @ d8192 | 19.70 ± 0.00 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | Vulkan | -1 | pp1024 @ d16384 | 185.07 ± 0.12 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | Vulkan | -1 | tg256 @ d16384 | 19.18 ± 0.00 |
ROCm (lemonade ROCm 나이틀리 빌드)

ggml_cuda_init: 발견된 ROCm 장치 1개 (총 VRAM: 32095 MiB): Device 0: AMD Radeon Pro W6800, gfx1030 (0x1030), VMM: 없음, Wave Size: 32, VRAM: 32095 MiB | 모델 | 크기 | 파라미터 수 | 백엔드 | ngl | 테스트 | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | ROCm | -1 | pp1024 | 265.71 ± 0.02 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | ROCm | -1 | tg256 | 18.69 ± 0.01 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | ROCm | -1 | pp1024 @ d8192 | 246.81 ± 0.03 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | ROCm | -1 | tg256 @ d8192 | 18.15 ± 0.02 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | ROCm | -1 | pp1024 @ d16384 | 230.19 ± 0.06 | | qwen35 27B Q6_K | 21.30 GiB | 27.32 B | ROCm | -1 | tg256 @ d16384 | 17.64 ± 0.02 |
AMD 사용자라면 놀랍지 않겠지만, Vulkan이 TG에서 더 빠르고 ROCm은 특히 긴 컨텍스트 깊이(long context depths)에서 PP가 더 빠릅니다. 이제 24GB VRAM급과 비교할 수 있도록 Q4 벤치마크를 살펴보겠습니다.

Qwen 3.6 27B @ Q4_K_XL
Vulkan (official llama.cpp build)
ggml_vulkan: Found 1 Vulkan devices: ggml_vulkan: 0 = AMD Radeon Pro W6800 (RADV NAVI21) (radv) | uma: 0 | fp16: 1 | bf16: 0 | warp size: 32 | shared memory: 65536 | int dot: 1 | matrix cores: none | model | size | params | backend | ngl | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | Vulkan | -1 | pp1024 | 353.85 ± 0.04 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | Vulkan | -1 | tg256 | 24.73 ± 0.00 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | Vulkan | -1 | pp1024 @ d8192 | 265.14 ± 0.34 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | Vulkan | -1 | tg256 @ d8192 | 23.77 ± 0.00 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | Vulkan | -1 | pp1024 @ d16384 | 205.36 ± 0.67 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | Vulkan | -1 | tg256 @ d16384 | 23.03 ± 0.00 |
ROCm (lemonade ROCm nightly build)
ggml_cuda_init: found 1 ROCm devices (Total VRAM: 32095 MiB): Device 0: AMD Radeon Pro W6800, gfx1030 (0x1030), VMM: no, Wave Size: 32, VRAM: 32095 MiB | model | size | params | backend | ngl | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | ROCm | -1 | pp1024 | 328.96 ± 0.09 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | ROCm | -1 | tg256 | 21.40 ± 0.01 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | ROCm | -1 | pp1024 @ d8192 | 298.96 ± 0.01 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | ROCm | -1 | tg256 @ d8192 | 20.68 ± 0.03 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | ROCm | -1 | pp1024 @ d16384 | 275.02 ± 0.03 | |
| qwen35 27B Q4_K - Medium | 16.67 GiB | 27.32 B | ROCm | -1 | tg256 @ d16384 | 20.02 ± 0.03 |

불행히도 llama-bench는 llama-server에 비해 기능 면에서 크게 뒤처지기 때문에, MTP (Multi-Token Prediction)를 벤치마크하는 데 사용할 수 없었습니다. 하지만 이는 엄청난 향상입니다! 토큰 생성량 (TG)이 약 75-100% 증가했습니다. 이 정도면 이 카드를 매우 실용적으로 사용할 수 있게 됩니다.

V620이 더 좋은 거래가 된 지금, 이것이 단일 MI50과 비교했을 때 어떤 성능을 보여줄지 궁금합니다. 하지만 제가 찾은 모든 벤치마크는 최소 2 x MI50 구성에 대한 것이었습니다.
제출자: /u/draetheus
[link] [comments]

Insights

최근 eBay 특가 상품인 W6800(개조된 V620)의 벤치마크 결과

요약

핵심 포인트

댓글

AI에게 얼마나 위임할 수 있을지는 직접 광범위하게 사용해 보기 전까지는 알 수 없습니다

Codex GPT-5.4 은퇴: Terra 또는 Luna로의 로그인 워크플로 마이그레이션 체크리스트

7월 19일 이후 Claude 구독 변화 — Max 플랜의 Fable은 전체 풀의 최대 50%를 소모하며, Pro 플랜은 첫 요청부터

64비트 어셈블리의 기술

Codex GPT-5.4 은퇴: Terra 또는 Luna로의 로그인 워크플로 마이그레이션 체크리스트

7월 19일 이후 Claude 구독 변화 — Max 플랜의 Fable은 전체 풀의 최대 50%를 소모하며, Pro 플랜은 첫 요청부터

64비트 어셈블리의 기술