종이 위의 스펙은 아무 의미가 없습니다: 7900xtx 대 5070ti 비교
요약
단순한 이론적 스펙(TFLOPS, 대역폭)이 실제 AI 모델 구동 성능을 보장하지 않음을 Radeon RX 7900 XTX와 NVIDIA GeForce RTX 5070 Ti의 비교를 통해 설명합니다. 실제 벤치마크 결과, 스펙상 우위에 있던 7900 XTX보다 5070 Ti가 더 나은 성능을 보여줍니다.
핵심 포인트
- 이론적 스펙(FP16, 대역폭)과 실제 성능 사이의 괴리 존재
- 7900 XTX가 스펙상으로는 5070 Ti를 압도함
- 실제 AI 모델 구동 벤치마크에서는 5070 Ti가 더 우수한 결과 기록
사람들은 종종 무엇을 살지 결정하기 위해 제공된 스펙을 훑어보곤 합니다. 저도 그렇게 한다는 점을 인정합니다. 하지만 그러한 스펙들은 실제 환경에서 제품이 얼마나 잘 작동할지를 정말로 알려주지는 않습니다. 여기 한 가지 예가 있습니다. 7900xtx 대 5070ti입니다. 서류상(On paper)으로는 7900xtx가 5070ti를 압도해야 합니다. 하지만 현실에서는 그 반대가 사실입니다.
서류상 스펙 - 승자 7900xtx
7900xtx
FP16 (half) 122.8 TFLOPS (2:1) 대역폭 (Bandwidth) 960.0 GB/s
5070ti
FP16 (half) 43.94 TFLOPS (1:1) 대역폭 (Bandwidth) 896.0 GB/s
현실 - 승자 5070ti
ggml_cuda_init: found 2 ROCm devices (Total VRAM: 152560 MiB): Device 0: Radeon RX 7900 XTX, gfx1100 (0x1100), VMM: no, Wave Size: 32, VRAM: 24560 MiB Device 1: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32, VRAM: 128000 MiB | model | size | params | backend | ngl | fa | dev | mmap | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | --: | ------------ | ---: | --------------: | -------------------: | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | ROCm | -1 | 1 | ROCm0 | 0 | pp512 | 2508.49 ± 108.06 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | ROCm | -1 | 1 | ROCm0 | 0 | tg128 | 108.12 ± 0.79 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | ROCm | -1 | 1 | ROCm0 | 0 | pp512 @ d10000 | 1903.73 ± 70.92 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | ROCm | -1 | 1 | ROCm0 | 0 | tg128 @ d10000 | 102.85 ± 1.14 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | ROCm | -1 | 1 | ROCm0 | 0 | pp512 @ d20000 | 1603.52 ± 29.79 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | ROCm | -1 | 1 | ROCm0 | 0 | tg128 @ d20000 | 97.27 ± 0.94 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | ROCm | -1 | 1 | ROCm0 | 0 | pp512 @ d40000 | 1198.21 ± 31.89 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | ROCm | -1 | 1 | ROCm0 | 0 | tg128 @ d40000 | 91.27 ± 2.15 | ggml_cuda_init: found 1 CUDA devices (Total VRAM: 15841 MiB): Device 0: NVIDIA GeForce RTX 5070 Ti, compute capability 12.0,
VMM: yes, VRAM: 15841 MiB ggml_cuda_init: 발견된 ROCm 장치 1개 (총 VRAM: 128000 MiB): Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32, VRAM: 128000 MiB | model | size | params | backend | ngl | fa | dev | mmap | test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | --: | --: | ------------ | ---: | --------------: | -------------------: | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | CUDA,ROCm | -1 | 1 | CUDA0 | 0 | pp512 | 4545.46 ± 128.15 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | CUDA,ROCm | -1 | 1 | CUDA0 | 0 | tg128 | 192.10 ± 1.18 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | CUDA,ROCm | -1 | 1 | CUDA0 | 0 | pp512 @ d10000 | 4116.78 ± 71.78 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | CUDA,ROCm | -1 | 1 | CUDA0 | 0 | tg128 @ d10000 | 181.34 ± 2.91 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | CUDA,ROCm | -1 | 1 | CUDA0 | 0 | pp512 @ d20000 | 3866.39 ± 38.58 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | CUDA,ROCm | -1 | 1 | CUDA0 | 0 | tg128 @ d20000 | 174.41 ± 1.01 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | CUDA,ROCm | -1 | 1 | CUDA0 | 0 | pp512 @ d40000 | 3393.81 ± 17.84 | | qwen35moe 35B.A3B Q2_K - Medium | 11.70 GiB | 35.51 B | CUDA,ROCm | -1 | 1 | CUDA0 | 0 | tg128 @ d40000 | 158.95 ± 1.53 |
제출자: /u/fallingdowndizzyvr
[링크] [댓글]}**{
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기