NVIDIA Blackwell, 최초의 에이전틱 AI 인프라 벤치마크인 AgentPerf를 선도하다: 궤적 재현
요약
Artificial Analysis가 에이전틱 AI 인프라를 위한 최초의 벤치마크인 AgentPerf를 발표했습니다. 기존의 단일 샷 방식과 달리 다단계 에이전트 궤적을 재현하여 실제 프로덕션 환경의 부하와 효율성을 측정합니다.
핵심 포인트
- AgentPerf는 다단계 에이전트 궤적 재현을 통해 실제 부하를 측정함
- 단순 토큰 처리량을 넘어 전력 대비 동시 에이전트 수를 평가함
- KV-캐시 집약적이고 상태 유지적인 에이전트 특성을 반영함
- SLO를 충족하는 실제 유효 처리량(Goodput) 측정에 집중함
무엇인가 (What): Artificial Analysis의 AgentPerf 벤치마크는 **에이전틱 AI 인프라 (agentic-AI infrastructure)**를 위해 구축된 최초의 테스트입니다. 단일 채팅 완료 (chat completion) 시간을 측정하는 대신, 기록된 다단계 에이전트 궤적 (multi-step agent trajectories)을 재현하여 서빙 시스템이 실제 에이전트 부하 하에서 어떻게 견디는지 확인합니다.
이유 (Why): 에이전트는 단일 프롬프트를 보내지 않습니다. 이들은 모델 호출과 도구 실행 (tool executions)의 긴 체인을 실행하므로, 서빙 시스템의 실제 역할은 이러한 실행을 동시에 여러 개 유지하는 것입니다. AgentPerf는 정확히 그 부분을 측정합니다: 전력 대비 정규화된, 속도 제한 이상을 유지하는 동시 에이전트 수.
이전 방식과의 차이 (vs prior): 단일 샷 완료 (single-shot completion) 벤치마크는 하나의 프롬프트를 보내고 초당 토큰 수를 보고하지만, 실제 에이전트가 생성하는 폭발적이고 상태 유지적이며 KV-캐시 (KV-cache) 집약적인 부하를 놓칩니다. 궤적 재현 (Trajectory replay)은 해당 부하를 재현하므로, 점수가 단거리 질주 시간이 아닌 실제 프로덕션 에이전트 부하를 반영합니다.
다음과 같이 생각해보세요
최고 속도 질주가 아니라 실제 주행 사이클을 재현하는 EPA 연비 테스트와 같습니다.
서빙 시스템 측정 중
│
┌───────────────┴───────────────┐
...
- 단일 채팅 완료 (single chat completion) = 직선 도로에서의 단일 샷 최고 속도 질주
- 에이전트 궤적 (agent trajectory) = 기록된 주행 사이클 — 정지, 출발, 공회전, 가속
- AgentPerf = 질주가 아닌 실제 주행 사이클을 재현하는 다이노 (dyno)
- 토큰당 SLO (per-token SLO) = 자동차가 전 구간 동안 유지해야 하는 최소 속도
- 메가와트당 에이전트 수 (agents per megawatt) = 전체 함대의 연비 (miles per gallon)
빠른 용어 사전
AgentPerf — **에이전틱 AI 인프라 (agentic-AI infrastructure)**를 위한 Artificial Analysis의 벤치마크입니다. 12개 이상의 프로그래밍 언어에 걸쳐 기록된 코딩 에이전트 궤적으로 서빙 시스템을 구동하며, 전력 대비 정규화된 토큰당 속도 제한 하에서 시스템이 유지할 수 있는 동시 에이전트 수를 측정합니다.
에이전트 궤적 (Agent trajectory) — 에이전트의 전체 기록된 실행: 도구 실행과 교차되는 체인형 LLM 호출 — 파일 읽기, 코드 실행, 오류 확인, 재시도 등 하나의 작업을 완료하기 위한 여러 단계입니다. AI Agents → The Agent Loop를 참조하세요.
Per-token SLO — 출력 속도에 대한 서비스 수준 목표 (Service-Level Objective) — 시스템이 각 에이전트에 대해 반드시 유지해야 하는 초당 토큰 수(tokens per second)의 하한선입니다. AgentPerf는 20 및 60 tok/s 두 지점에서 측정합니다. LLM Serving → Serving Metrics를 참조하세요.
Goodput — 실제로 SLO를 충족하는 작업만을 의미합니다. 여기서는 지연 시간(latency)에 관계없이 모든 것을 계산하는 원시 처리량(raw throughput)과 대조되는 개념으로, 토큰 속도 하한선을 유지하는 동시 에이전트 수를 뜻합니다. Throughput vs Goodput를 참조하세요.
Agents per megawatt (메가와트당 에이전트 수) — AgentPerf의 핵심 지표입니다. SLO를 충족하는 동시 에이전트 수를 시스템이 소비하는 전력으로 나눈 값입니다. 추론 플릿(inference fleet)의 연비(miles per gallon)와 같이, 단위 에너지당 유용한 작업량을 나타내는 효율성 수치입니다.
GB300 NVL72 / HGX H200 — 비교 대상인 두 NVIDIA 시스템입니다. 랙 스케일(rack-scale)의 Blackwell GB300 NVL72와 이전 세대인 HGX H200을 비교합니다. 보고된 결과에서 두 시스템 모두 DeepSeek V4 Pro를 실행합니다.
뉴스. 2026년 6월 12일, Artificial Analysis는 **에이전틱 AI 인프라 (agentic-AI infrastructure)**를 위한 업계 최초의 벤치마크로 명명된 AgentPerf를 출시했습니다. 단일 채팅 완성(chat completions) 대신, 이 벤치마크는 12개 이상의 프로그래밍 언어에 걸쳐 파일 읽기, 코드 실행, 반복(iteration)과 같은 실제 코딩 에이전트의 궤적(trajectories)을 재현하며, 전력 대비 정규화된 per-token SLO 하에서 시스템이 얼마나 많은 동시 에이전트를 유지할 수 있는지 점수를 매깁니다. NVIDIA는 GB300 NVL72가 DeepSeek V4 Pro를 실행하고 20 및 60 tokens/sec에서 측정했을 때, HGX H200 시스템보다 메가와트당 최대 20배 더 많은 에이전트를 서비스한다고 보고했습니다. 공지사항 읽기 →
새 차에 붙어 있는 연비 스티커를 상상해 보세요. 창문에 적힌 숫자는 쿼터마일 드래그 레이스(quarter-mile drag time) 기록이 아닙니다. 텅 빈 직선 도로를 한 번 질주하는 것만으로는 여러분이 실제로 하게 될 출퇴근 주행에 대해 거의 아무것도 알 수 없습니다. 운전자가 신경 쓰는 수치인 연비(miles per gallon)는 기록된 도시 주행 사이클을 재현(replaying)하는 다이너모미터(dynamometer), 즉 정지, 출발, 공회전, 가속과 같은 복잡하고 실제적인 패턴으로부터 나옵니다. 단 한 번의 질주는 잘못된 것을 측정합니다. 기록된 주행 사이클이 여러분이 실제로 마주하는 것을 측정합니다. 단일 채팅 완성(single chat completion)이 바로 그 질주라면, 에이전트의 실행(run)은 주행 사이클입니다. AgentPerf는 바로 그 다이너모미터입니다.
이러한 차이가 중요한 이유는 에이전트의 실행이 단일 프롬프트-응답(prompt-and-reply) 방식과는 전혀 다르기 때문입니다. 에이전트의 실행은 도구 실행(tool executions)과 교차되는 모델 호출(model calls)의 긴 루프입니다. 파일을 읽고, 코드를 실행하고, 실패를 확인하고, 수정하고, 다시 시도하는 등 하나의 작업을 완료하기 위해 많은 단계를 거칩니다. 이러한 부하는 간헐적(bursty)이며 상태 유지(stateful)적입니다. 매 단계마다 컨텍스트(context)가 커지면서 KV-캐시(KV-cache) 재사용에 크게 의존하게 되고, 디코딩(decode)은 멈췄다 가기를 반복하는 분출 형태로 나타나며, 이러한 실행이 동시에 많이 시스템에 도달합니다. 단일 프롬프트를 보내고 초당 최대 토큰 수(peak tokens per second)를 보고하는 벤치마크는 출퇴근 주행이 아니라 질주 시간을 측정하는 것입니다.
따라서 AgentPerf는 기록된 코딩 에이전트 궤적(trajectories)을 재현하며 다른 질문을 던집니다. 시스템이 동시에 얼마나 많은 에이전트를 토큰당 속도 제한 이상으로 유지할 수 있는가? 이것이 바로 굿풋(goodput) 측정입니다. 가공되지 않은 토큰 처리량(raw token throughput)이 아니라, 실제로 SLO(Service Level Objective)를 준수하는 에이전트의 수만 계산한 뒤, 이를 랙(rack)이 소비하는 전력으로 나누는 것입니다. 여기서 도출되는 단위인 '메가와트당 에이전트 수(agents per megawatt)'는 추론 플릿(inference fleet)의 연비와 같습니다. 즉, 단위 에너지당 유용한 작업량을 의미합니다.
| 벤치마크 방식 | 전송 내용 | 놓치는 부분 |
|---|---|---|
| 단일 채팅 완성 (Single chat completion) | 하나의 프롬프트 → 하나의 응답 | 실제 에이전트가 생성하는 간헐적이고 다단계적인 부하 |
| ... |
"메가와트당 20배"가 의미하는 것
두 가지 요소를 고정해 보겠습니다: 전력은 1메가와트(megawatt), SLO(서비스 수준 목표)는 초당 60토큰(60 tokens per second)입니다. 만약 HGX H200 랙이 1메가와트 내에서 해당 하한선을 유지하며 **60개의 동시 에이전트(concurrent agents)**를 지원한다고 가정해 봅시다 (예시적 수치). AgentPerf가 실제로 보고하는 유일한 비율은 비교 수치입니다: GB300 NVL72는 동일한 메가와트에서 최대 20배 더 많은 에이전트를 지원합니다 — 즉, 해당 스케일링에서 약 1,200개의 에이전트를 지원한다는 의미입니다. 레버(lever)는 단순히 더 많은 FLOPs(부동 소수점 연산량)만이 아닙니다. 에이전트의 궤적(trajectories)은 시스템 프롬프트, 도구 정의(tool definitions), 지금까지의 대화 내용과 같은 거대한 공통 접두사(common prefix)를 공유합니다. 따라서 KV-캐시 재사용(KV-cache reuse)과 연속 배치(continuous batching)가 원시 연산 능력을 지속 가능한 에이전트로 전환하는 핵심이며, 단일 완료(single-completion) 벤치마크는 이러한 재사용을 결코 활용하지 못합니다. 동일한 메가와트에서 에이전트 수가 최대 20배 증가하는 이유는, 이 테스트가 단발성 스프린트(one-shot sprint) 대신 KV-재사용이 집중된 지속적인 에이전트 부하에 마침내 보상을 주기 때문입니다. (20배 비율, 20/60 tok/s SLO, GB300 대 H200 비교 수치는 NVIDIA에서 제공한 것이며, 60개 에이전트 기준선은 예시용입니다.)
더 자세히 알아보기: Agent Engineering → Cost & Latency → The Cost Profile of an Agent
관련 설명 자료
- NVIDIA AI Factories — tokens per megawatt — 지표상의 사촌 격: AgentPerf의 메가와트당 에이전트(agents) 수는 메가와트당 토큰(tokens) 수의 에이전트 수준 버전입니다.
- WeaveBench — trajectory-aware grading — 이 또한 에이전트 실행 전체를 재현하지만, 목적은 _정확성(correctness)_을 평가하는 것입니다. 반면 AgentPerf는 _인프라(infrastructure)_를 측정하기 위해 재현합니다.
- FutureSim — harness-level agent eval — 단발성 QA가 아닌 하네스(harness) 수준에서 에이전트를 평가하는 더 넓은 변화를 다룹니다.
FAQ
AgentPerf란 무엇인가요?
AgentPerf는 Artificial Analysis에서 제공하는 벤치마크로, 에이전틱 AI (agentic-AI) 인프라를 위한 최초의 테스트로 평가받습니다. 단일 채팅 완성 (chat completion) 시간을 측정하는 대신, 기록된 다단계 코딩 에이전트 궤적 (multi-step coding-agent trajectories) — 파일 읽기, 코드 실행, 12개 이상의 프로그래밍 언어에 걸친 반복 작업 — 을 재현(replay)합니다. 그리고 토큰당 SLO (Service Level Objective) 하에서 서빙 시스템이 얼마나 많은 동시 에이전트를 유지할 수 있는지 측정하며, 이를 전력량으로 정규화하여 에이전트 수/메가와트 (agents per megawatt)로 나타냅니다. NVIDIA가 보고한 결과에 따르면, GB300 NVL72 시스템은 DeepSeek V4 Pro 환경에서 HGX H200 시스템보다 메가와트당 최대 20배 더 많은 에이전트를 서빙할 수 있습니다.
궤적 재현 (trajectory-replay) 벤치마킹은 일반적인 LLM 벤치마크와 어떻게 다른가요?
일반적인 LLM 벤치마크는 하나의 프롬프트 (prompt)를 보내고 초당 토큰 수 (tokens per second), 첫 번째 토큰 생성 시간 (time to first token) 등의 응답을 측정합니다. 반면, 에이전트는 긴 궤적을 실행합니다. 즉, 도구 실행 (tool executions)과 교차되는 연쇄적인 모델 호출 (chained model calls)이 발생하며, 컨텍스트 (context)가 계속 커지고 디코딩 (decode) 부하가 급증하는 특성을 가집니다. 궤적 재현은 단일 프롬프트 대신 기록된 이러한 다단계 실행을 통해 시스템을 구동하므로, 스케줄러 (scheduler), KV-캐시 재사용 (KV-cache reuse), 그리고 동시성 하에서의 지속적인 디코딩 (sustained decode) — 즉, 실제 에이전트가 생성하는 부하 — 를 테스트합니다.
에이전트 수/메가와트 (agents per megawatt)는 무엇을 측정하나요?
에이전트 수/메가와트는 AgentPerf의 핵심 지표입니다. 이는 시스템이 토큰당 SLO를 유지하며 가동할 수 있는 동시 에이전트 수를 소비 전력으로 나눈 값입니다. 이는 추론 플릿 (inference fleet)의 연비(miles per gallon)와 유사한, 단위 에너지당 유효 작업량을 나타내는 굿풋 (goodput) 스타일의 효율성 수치입니다. 이 지표는 단순히 단일 프롬프트에 대한 최대 토큰 처리량 (peak token throughput)이 아니라, 동일한 전력 예산 내에서 수많은 실제 에이전트 실행을 동시에 유지할 수 있는 시스템에 높은 점수를 부여합니다.
원문은 Learn AI Visually에 게시되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기