
AMD가 초당 2,626 토큰의 GLM5.2를 제공했습니다 — NVIDIA Blackwell보다 2배 저렴합니다
요약
AMD MI355X 하드웨어가 GLM5.2 모델 구동 시 NVIDIA Blackwell 대비 2배 저렴한 비용으로 초당 2,626 토큰을 처리했다는 Wafer의 벤치마크 결과가 발표되었습니다. 이는 단순 연구용이 아닌 실제 프로덕션 환경에서의 성능을 입증한 사례로 주목받고 있습니다.
핵심 포인트
- AMD MI355X가 GLM5.2 모델에서 노드당 2,626 tok/s 기록
- NVIDIA Blackwell 대비 약 2배 낮은 비용 효율성 입증
- Wafer, Vercel AI Gateway 등 실제 프로덕션 환경에서의 데이터
- ROCm 기반의 Wafer 최적화 레이어를 통한 성능 극대화
솔직히 말씀드리겠습니다 — 처음 이 헤드라인을 봤을 때, 저는 두 번이나 다시 읽어야 했습니다.
"AMD MI355X에서 GLM5.2가 Blackwell보다 2배 이상 낮은 비용으로 노드당 2626 tok/s를 기록했습니다."

이것은 오타가 아닙니다. 이것은 어제 Wafer가 발표한 내용이며, 이미 Hacker News에서 180개의 포인트와 51개의 댓글을 기록했습니다. 논쟁은 치열합니다 — 어떤 사람들은 축하하고 있고, 어떤 사람들은 허위 사실(BS)이라고 부르고 있습니다. 그리고 솔직히 말해서? 양쪽 모두 일리가 있습니다.
하지만 제 관심을 끈 지점은 이것입니다: 이것은 AMD 마케팅 연구소에서 진행한 일회성 벤치마크가 아닙니다. 이것은 Vercel AI Gateway 및 OpenRouter와 협력하는 _프로덕션 제공업체(production provider)_인 Wafer가 AMD 하드웨어에서 실제 트래픽을 처리하고 있으며 잘 작동하고 있다고 말하는 것입니다. 단순히 작동하는 수준이 아닙니다. 비용 측면에서 승리하고 있습니다.
저는 지난 1년 동안 GPU 추론(inference) 비용 전쟁을 지켜봐 왔으며, 이번 일은 진정한 변화처럼 느껴집니다. 실제로 어떤 일이 일어났는지, 회의론자들이 무엇을 틀렸고(그리고 무엇을 맞혔는지), 그리고 여러분이 프로덕션 환경에 모델을 배포할 때 이것이 무엇을 의미하는지 설명해 드리겠습니다.
중요한 수치들
Wafer의 Ian Ye는 어제 전체 분석 내용을 게시했습니다. 그들의 설정에 대한 요약(TL;DR)은 다음과 같습니다:
- 모델: GLM-5.2 — Claude 및 GPT급 모델들과 적극적으로 경쟁하고 있는 Zhipu AI의 최신 프론티어 모델
- 하드웨어: TensorWave 용량의 AMD MI355X (Instinct MI350 시리즈)
- 소프트웨어 스택: ROCm 상단의 Wafer 최적화 레이어
- 워크로드: 20k 입력 토큰 / 1k 출력 토큰, 60% 캐시 히트율 (cache hit rate)
핵심 수치인 초당 2,626 토큰/노드 합계 처리량 (2,626 tok/s/node aggregate throughput) (초당 2.4회 요청 기준)은 5초 이하의 첫 토큰 생성 시간 (TTFT, time-to-first-token) 임계점을 유지하며 달성되었습니다. 이는 선별된 이상적인 사례가 아닌, 실제 운영 워크로드 프로필에 해당합니다.
Artificial Analysis 표준을 따른 10k 입력 / 1.5k 출력 토큰 조건에서의 단일 스트림 성능은 213 tok/s를 기록했습니다. 이는 한 명의 사용자가 하나의 응답을 기다리는 대화형 채팅 애플리케이션에서 가장 중요한 지표입니다.
결정적인 부분은 무엇일까요? 이 모든 것이 "Blackwell보다 2배 이상 낮은 비용"으로 이루어졌다는 점입니다. Wafer는 MI355X가 NVIDIA B300과 유사한 하드웨어 사양을 가지면서도 GPU당 비용이 약 2.75배 더 저렴하다고 주장합니다.
이것은 작은 격차가 아닙니다. 거대한 심연입니다.
회의론자의 관점: 양자화 (Quantization) 및 주의사항
이제 모두가 간과할 수 없는 핵심 문제(elephant in the room)를 짚어보겠습니다. HN(Hacker News) 댓글에서도 분명히 다뤄진 내용입니다.
가장 많은 추천을 받은 반응들은 타당한 이유로 회의적이었습니다:
"멋지긴 하지만, FP4로의 양자화 (quantization)는 실제 사용 시 거의 손실이 없는(lossless) 경우가 없습니다. 많은 제공업체가 Kimi와 GLM에서 높은 TPS를 광고하고 있지만, 모델들은 기능적으로 뇌가 절제된(lobotomized) 상태이며 더 이상 최첨단(frontier) 품질에 가깝지 않습니다."
사용자 _hassaanr_의 의견이며, 이는 틀린 말이 아닙니다. mxFP4 정밀도(precision)로 실행한다는 것은 속도를 위해 품질을 희생한다는 것을 의미합니다. 문제는 품질을 얼마나 희생하느냐, 그리고 그것이 귀하의 사용 사례에 중요한가 하는 점입니다.
또 다른 댓글 작성자는 더 직설적으로 표현했습니다:
"이런 종류의 게시물에서는 제목에 양자화 여부를 명시하지 않는 것을 불법으로 만들어야 한다고 생각합니다."
일리가 있는 말입니다. 누군가 "초당 2,626 토큰"이라고 말하면, 우리의 뇌는 "엄청난 속도로 실행되는 풀 퀄리티의 최첨단 모델 추론 (inference)"을 떠올리게 됩니다. 하지만 현실은 더 미묘합니다. 우리는 상당한 최적화 작업이 수반된 특수 하드웨어에서 실행되는, 공격적으로 양자화된 모델에 대해 이야기하고 있는 것입니다.
하지만 여기서 중요한 반론이 있습니다. 대부분의 프로덕션 (production) 사용 사례에서 양자화된 추론 (quantized inference)은 이미 표준입니다. 사용자 대상 트래픽을 대규모로 처리할 때 전체 fp16을 사용하는 곳은 아무도 없습니다. 논점은 "양자화 vs 비양자화"가 아니라, 최적화 수준과 귀하의 특정 애플리케이션에 대해 품질 기준을 여전히 충족하느냐의 문제입니다.
저는 몇 달 동안 프로덕션에서 양자화된 모델을 실행해 왔으며, 잘 튜닝된 FP4와 참조용 FP16 사이의 품질 차이는 코드 생성 (code generation), 요약 (summarization), 구조화된 출력 (structured output) 작업에서 종종 무시할 수 있는 수준입니다. 창의적인 글쓰기라면? 아닐 수도 있습니다. 코드 리뷰라면? 완전히 괜찮습니다.
AMD vs NVIDIA 비용 계산의 실제 모습
"2배 더 저렴하다"는 것이 실제 달러로 무엇을 의미하는지 구체적으로 살펴봅시다.
Wafer의 차트에 따르면 MI355X는 포화 상태에서 B200 성능의 80%에 도달하지만, 비용은 2배 이상 낮습니다. 2.4 RPS 포화 상태에서, 이들은 0.81초의 평균 TTFT (Time To First Token)와 2.22초의 p99를 기록하며 총 2,626 tok/s를 달성하고 있습니다.
제가 추론 제공업체를 평가할 때 사용하는 대략적인 계산법은 다음과 같습니다:
| 지표 (Metric) | B200 | MI355X | 비율 (Ratio) |
|---|---|---|---|
| 피크 tok/s (합계) | ~3,280 | 2,626 | 80% |
| ... | |||
| *Wafer의 2.75배 주장과 공개 가격 범위를 기반으로 한 대략적인 추정치입니다. 실제 가격은 제공업체, 계약 기간 및 가용성에 따라 크게 달라질 수 있습니다. |
NVIDIA GPU 가격이 상승하고 있다는 점을 고려하면 계산 결과는 훨씬 더 좋아집니다. 공급이 수요를 따라가지 못하고 있기 때문입니다. Wafer의 게시물에서 언급했듯이:
"Claude Fable, GLM5.2, Minimax M3와 같이 거의 격주로 프런티어 모델 (frontier models)이 출시되면서 토큰 열풍은 더욱 거세지고 있으며, 이를 지원할 Blackwell이 충분하지 않습니다."
이것은 마케팅 수사가 아니라 관찰 가능한 현실입니다. 모든 주요 연구소(lab)가 NVIDIA가 Blackwell을 제조하는 속도보다 더 빠르게 모델을 출시하고 있으며, 2차 시장의 가격은 천문학적입니다.
빠르게 좁혀지고 있는 소프트웨어 격차
NVIDIA가 여전히 확실한 우위를 점하고 있는 단 한 가지 분야는 소프트웨어입니다. CUDA의 생태계는 15년 동안 성숙해 왔습니다. ROCm은... 그렇지 않습니다.
이에 대해 Wafer의 게시글은 매우 솔직합니다:
"MI355X / ROCm 스택에서는 이러한 티어 모델(frontier models)에 대해 SOTA(최첨단) 성능이 즉시(out of the box) 나오는 경우가 드뭅니다. 사실, 다음과 같은 것을 찾을 수만 있어도 운이 좋은 것입니다..."
말은 흐려졌지만 메시지는 명확합니다. AMD의 소프트웨어 스택은 여전히 세심한 관리(hand-holding)가 필요합니다. 이러한 수치를 얻으려면 AMD 최적화(optimization)를 전문으로 하는 Wafer와 같은 팀이 필요합니다. MI355X를 상자에서 꺼내 기본 ROCm 상태로 GLM5.2를 실행한다면? 초당 2,626 토큰(tok/s)에는 도달하지 못할 것입니다.
하지만 — 그리고 이것은 매우 중요한 '하지만'입니다 — Wafer는 이것이 _가능하다는 것_을 증명했습니다. "전문적인 튜닝(tuning)을 통해 가능하다"와 "즉시 작동한다" 사이의 격차는 빠르게 줄어들고 있습니다. Wafer의 사례와 같은 전담 최적화 레이어(optimization layers)와 커뮤니티의 ROCm에 대한 증가하는 투자는 NVIDIA의 가장 강력한 방어선이었던 소프트웨어 해자(software moat)를 메우고 있습니다.
이 점을 고려해 보십시오. 6개월 전만 해도 아무도 Blackwell과 같은 문장에서 AMD 추론(inference) 수치를 발표하지 않았습니다. 하지만 이제 우리는 2.75배 더 낮은 비용으로 20%의 성능 격차에 대해 이야기하고 있습니다. 그 정도의 가격 차이라면, AMD 하드웨어를 위한 최적화 작업의 ROI(투자 대비 수익)는 엄청납니다.
이것이 현업 개발자들에게 의미하는 바
만약 당신이 LLM (Large Language Models) 기반의 제품을 구축하고 있다면 — 솔직히 말해서, 당신이 2026년에 이 글을 읽고 있다면 아마 그럴 것입니다 — AMD의 가격 전쟁은 그 어떤 개별 모델의 출시보다 훨씬 더 중요합니다.
제 견해는 이렇습니다: 추론 비용 곡선(inference cost curve)이 훨씬 더 가팔라지기 직전입니다.
지난 2년 동안의 담론은 "AI가 기하급수적으로 저렴해지고 있다"는 것이었습니다. 하지만 현실은 모델들이 더 효율적으로 변하고 있기 때문에 주로 저렴해진 것입니다. 토큰당 하드웨어 비용은 상대적으로 평탄하게 유지되어 왔습니다.
AMD가 그것을 바꾸고 있습니다. 경쟁력 있는 프런티어 모델(frontier model)에 대해 달러당 2배의 처리량(throughput)을 얻을 수 있게 되면, AI 애플리케이션의 전체 비용 구조가 변화합니다. 이전에는 경제적으로 실행 불가능했던 것들 — 사용자 세션당 모델을 수백 번 호출하는 실시간 에이전트(real-time agents), 소규모 팀을 위한 고처리량 배치 처리(high-throughput batch processing) — 이 갑자기 타당성을 갖게 됩니다.
핵심 질문은 "내일 당장 AMD로 전환해야 하는가?"가 아닙니다. "추론 비용이 절반으로 줄어들 때 무엇이 가능해지는가?"입니다.
몇 가지 구체적인 영향은 다음과 같습니다:
-
에이전트 루프(Agent loops) 비용 감소: 사용자 동작당 10~20회의 모델 호출을 실행하는 경우, 추론 비용을 절반으로 줄이면 이러한 다단계 에이전트 워크플로(agentic workflows)를 대규모로 경제성 있게 운영할 수 있습니다.
-
소규모 팀의 경쟁 가능성: 프런티어 모델을 실행하기 위한 하드웨어 장벽이 낮아지고 있습니다. 경쟁력 있는 품질을 제공하기 위해 H100 클러스터가 반드시 필요한 것은 아닙니다. 몇 개의 MI355X 노드만으로도 상당한 프로덕션 부하를 처리할 수 있습니다.
-
NVIDIA의 대응 필요성: Blackwell의 가격을 낮추거나(수요를 고려할 때 가능성이 낮음), 혹은 프리미엄을 정당화할 수 있을 만큼 성능 격차를 벌리는 Rubin급 하드웨어를 출시함으로써 대응해야 할 것입니다. 저는 이 두 가지가 모두 나타날 것이라고 예상합니다.
결론
해당 포스트와 HN(Hacker News) 토론을 읽고, 다양한 제공업체에서 추론 (Inference)을 실행해 본 저의 경험을 바탕으로 내린 결론은 다음과 같습니다:
AMD MI355X가 만능 해결책(Magic bullet)은 아닙니다. 양자화 (Quantization)에 따른 주의 사항은 실재합니다.
소프트웨어 격차 또한 실재합니다. "총 처리량 (Aggregate throughput)"과 단일 스트림 (Single-stream)의 구분은 중요합니다. 비용에 상관없이 절대적으로 최고의 품질이 필요하다면, 여전히 FP16 환경에서는 NVIDIA의 최신 제품을 고려해야 합니다.
하지만 채팅 서비스, 코드 생성, RAG (Retrieval-Augmented Generation) 파이프라인, 구조화된 추출 (Structured extraction), 배치 처리 (Batch processing) 등 나머지 90%의 프로덕션 유스케이스(Production use cases)에 있어서 AMD의 가격 제안은 진정으로 매력적입니다. 최첨단 (Frontier) 모델들과 경쟁할 수 있는 모델에서, 피크 성능의 80%를 유지하면서 비용을 2배 개선할 수 있다면? 이는 많은 팀의 배포 계산법 (Deployment calculus)을 변화시킬 것입니다.
_AussieWog93_의 HN 댓글은 염두에 둘 가치가 있습니다:
"2600 tok/s는 '총합 (Aggregate)'이지, 실제 처리량 (Throughput)이 아닙니다."
맞는 말입니다. 하지만 대부분의 프로덕션 배포에서는 총 처리량이 바로 핵심입니다. 단일 사용자 연구 환경을 운영하는 것이 아니라면, 어차피 요청을 배치 (Batching) 처리하고 총 처리량을 측정하게 됩니다.
한편, _Schiendelman_은 중요한 지점을 지적했습니다:
"Blackwell과의 경쟁이 나타나는 것이 놀랍지 않습니다. Rubin은 추론 (Inference) 시 Blackwell보다 5배 더 빠릅니다. Blackwell은 NVIDIA가 추론만을 위해 특별히 성능을 개선하지 않은 마지막 세대입니다."
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기




