에이전트 실행 비용 (Agent Execution Tax): 브라우저 에이전트 벤치마크를 위한 새로운 조달 지표인가?

한 모델은 22.9%의 에이전트 실행 비용 (Agent Execution Tax, 낭비된 추론 / 생산적인 추론)을 지불했습니다. 토큰당 비용이 가장 저렴해 보였던 동일한 모델이 성공적인 작업당 비용은 2.3배 더 높았습니다. WebVoyager 벤치마크에서 이 네 가지 모델을 대상으로 720개의 브라우저 에이전트 작업을 실행했습니다. 오픈 웨이트 (Open-weight) 모델들은 Gemini 2.5 Flash에 맞서 대등한 성능을 보여주었습니다.

주요 내용:

MiniMax M2.5: Gemini보다 성공적인 작업당 비용이 2.3배 저렴함
GLM-5: 가장 높은 정확도 (57.1%), 구조화된 데이터 (structured data)에서 가장 강력함
Kimi K2.5: 852회의 호출 동안 파싱 재시도 (parse retries) 0% (Gemini는 18.6%)

우리를 놀라게 한 점: 오픈 웨이트 (open-weight) 모델들이 이제 에이전트 벤치마크에서 승리하고 있는데, 이는 모델이 더 똑똑해졌기 때문이 아니라 호출당 신뢰성 (reliability)이 더 높기 때문입니다.

재시도 (retries)가 누적되면 토큰 가격 비교는 오해의 소지가 있습니다.

전체 벤치마크 및 재현 단계는 링크에 포함되어 있습니다.

Insights

에이전트 실행 비용 (Agent Execution Tax): 브라우저 에이전트 벤치마크를 위한 새로운 조달 지표인가?

요약

핵심 포인트

댓글

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인