에이전트 실행 비용 (Agent Execution Tax): 브라우저 에이전트 벤치마크를 위한 새로운 조달 지표인가?
요약
WebVoyager 벤치마크를 통해 브라우저 에이전트의 '실행 비용(Agent Execution Tax)' 개념을 분석했습니다. 단순히 토큰당 가격이 아닌, 재시도와 낭비된 추론을 포함한 작업당 실제 비용이 모델 성능 평가의 핵심 지표임을 강조합니다.
핵심 포인트
- 토큰 가격보다 작업 성공당 비용이 더 중요한 지표임
- 오픈 웨이트 모델이 높은 신뢰성으로 Gemini와 대등한 성능 기록
- 재시도(retries) 발생 시 실제 운영 비용이 급격히 상승함
- GLM-5는 높은 정확도와 구조화된 데이터 처리 능력을 보여줌
한 모델은 22.9%의 에이전트 실행 비용 (Agent Execution Tax, 낭비된 추론 / 생산적인 추론)을 지불했습니다. 토큰당 비용이 가장 저렴해 보였던 동일한 모델이 성공적인 작업당 비용은 2.3배 더 높았습니다. WebVoyager 벤치마크에서 이 네 가지 모델을 대상으로 720개의 브라우저 에이전트 작업을 실행했습니다. 오픈 웨이트 (Open-weight) 모델들은 Gemini 2.5 Flash에 맞서 대등한 성능을 보여주었습니다.
주요 내용:
-
MiniMax M2.5: Gemini보다 성공적인 작업당 비용이 2.3배 저렴함
-
GLM-5: 가장 높은 정확도 (57.1%), 구조화된 데이터 (structured data)에서 가장 강력함
-
Kimi K2.5: 852회의 호출 동안 파싱 재시도 (parse retries) 0% (Gemini는 18.6%)
우리를 놀라게 한 점: 오픈 웨이트 (open-weight) 모델들이 이제 에이전트 벤치마크에서 승리하고 있는데, 이는 모델이 더 똑똑해졌기 때문이 아니라 호출당 신뢰성 (reliability)이 더 높기 때문입니다.
재시도 (retries)가 누적되면 토큰 가격 비교는 오해의 소지가 있습니다.
전체 벤치마크 및 재현 단계는 링크에 포함되어 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기