X요약2026. 06. 08. 19:34

토큰당 비용이 AI 공장 평가 1순위다.

요약

엔비디아 제품마케팅 총괄은 AI 공장의 핵심 평가 지표가 GPU 속도에서 토큰당 비용 최소화로 이동했다고 밝혔습니다. 에이전틱 워크로드의 증가로 인해 CPU의 데이터 공급 능력이 새로운 병목 구간이 되었으며, 이를 해결하기 위해 Vera CPU와 NVLink C2C 기술이 도입됩니다.

핵심 포인트

AI 공장의 최우선 가치는 토큰당 비용 최소화
에이전틱 워크로드 대응을 위한 CPU 성능 및 대역폭 중요성 증대
Vera CPU와 NVLink C2C를 통한 데이터 병목 현상 해결
Blackwell에서 Rubin으로의 전환 시 CUDA 하위호환성 유지

엔비디아 GTC 타이페이에서 제품마케팅 총괄 인터뷰 내용이다.

고객은 GPU 속도보다 토큰당 비용 최소화를 최우선으로 본다.
그 다음이 빨리 깔 수 있는지와 생산 토큰량이다.

병목이 이동했다.
GPU 가속 다음은 네트워크, 이제 CPU가 된다.

에이전틱 워크로드는 planning·retrieval·tool use·code의 긴 루프라 160턴 이상이 필요하다.
CPU가 데이터를 GPU에 적시에 공급하지 못하면 전체가 느려진다.

엔비디아는 Vera CPU를 바닥부터 재설계했다.
높은 단일스레드 성능, 막대한 메모리 대역폭, 단일 다이 코히어런트 패브릭이 핵심이다.
NVLink C2C로 GPU에 데이터를 바로 넘겨 병목을 피한다.

메모리는 LPDDR에 ECC를 내장해 저전력 엔터프라이즈급으로 만들었다.

Blackwell에서 Rubin으로 전환할 때 CUDA 10년 하위호환과 NVL72 아키텍처를 유지해 기존 투자를 보호한다.

자체 AI 모델 연구팀으로 미래 워크로드를 미리 보고 빠르게 선회하는 문화가 배경이다.

마케팅 총괄 인터뷰라 셀링 톤이 있지만 메시지는 다른 키노트와 일관된다.

AI 자동 생성 콘텐츠

원문 바로가기

토큰당 비용이 AI 공장 평가 1순위다.

요약

핵심 포인트

댓글