본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 27. 11:45

Hermes Agent가 글로벌 토큰 사용량을 선도하고 있습니다. 이것이 실제로 무엇을 의미할까요?

요약

OpenRouter 데이터에 따르면 Hermes Agent가 압도적인 토큰 사용량을 기록하며 에이전트 시대의 도래를 보여주고 있습니다. 에이전트 시스템은 단순 챗봇과 달리 복잡한 프로세스를 수행하며 많은 토큰을 소비하지만, 토큰 양이 반드시 성능이나 정확도를 보장하는 것은 아닙니다.

핵심 포인트

  • Hermes Agent가 OpenRouter에서 기록적인 토큰 사용량을 달성함
  • 에이전트 시대의 토큰 소비는 긴 프로세스 위임의 결과임
  • 높은 토큰 사용량이 반드시 높은 정확도나 성능을 의미하지는 않음
  • 성공적인 에이전트 평가를 위해서는 비용, 지연 시간, 신뢰성 검증이 필요함

2026년 5월 26일, OpenRouter는 자사의 글로벌 앱 및 에이전트 순위 상단에 Hermes Agent를 표시했습니다. 인기 앱 보기 페이지에 따르면 Hermes Agent는 9.9조 개의 추적된 토큰 (tracked tokens)을 기록했으며, OpenClaw는 6.25조 개를 기록했습니다. 일일 글로벌 보기에서는 Hermes Agent가 6,290억 개의 토큰을, OpenClaw가 1,540억 개의 토큰을 기록했습니다. 이는 신생 오픈 소스 (open source) 에이전트로서 매우 이례적인 급증입니다. 또한 이는 더 어려운 질문을 던지게 만듭니다. 토큰 리드 (token lead)는 무엇을 측정하는 것일까요?

첫 번째 답변은 정확하면서도 제한적입니다. OpenRouter는 사용량 추적에 참여하기로 선택한 공개 애플리케이션 및 에이전트로부터 라우팅된 토큰 (routed token) 활동을 측정합니다. 이 순위는 해당 플랫폼에서 모델 연산 (model computation)이 어디로 대량 유입되고 있는지를 보여줍니다. 이는 모든 비공개 배포 (private deployment), 로컬 모델 실행 (local model run), 직접적인 제공자 요청 (direct provider request), 작업 결과, 또는 사용자 만족도 점수를 측정하는 것은 아닙니다. Hermes는 거대한 가시적 활동을 포착했습니다. 역량 평가 (capability evaluation)를 위해서는 여전히 결과, 비용, 지연 시간 (latency), 신뢰성 및 리스크에 대한 증거가 필요합니다.

제품을 살펴보면 이러한 활동 자체는 타당해 보입니다. Nous Research는 Hermes Agent를 세션 간 메모리 (cross session memory), 경험을 통해 형성된 재사용 가능한 기술, 40개 이상의 내장 도구 (built in tools), 예약된 자동화 (scheduled automations), 그리고 서브 에이전트 (subagents)를 갖춘 지속적이고 자기 개선적인 에이전트로 제시합니다. 가용성을 유지하고, 컨텍스트 (context)를 회상하며, 환경을 조사하고, 도구를 사용하며, 자체 루틴을 수정하도록 설계된 시스템은 모델을 호출할 기회가 많습니다. OpenClaw 또한 메시징 앱과 실제 사용자 행동 전반에 걸쳐 작동합니다. 두 시스템 모두 하나의 요청이 계획 (planning), 브라우징 (browsing), 도구 호출 (tool calls), 확인 (checking), 메모리 업데이트 (memory updates), 그리고 후속 작업으로 전개될 수 있는 시스템 범주에 속합니다.

이러한 변화는 수요의 의미를 바꿉니다. 챗봇 (chatbot) 시대에는 높은 토큰 수가 종종 많은 사람이 많은 질문을 입력했음을 의미했습니다. 에이전트 (agent) 시대에는 토큰 수가 많다는 것이 더 적은 수의 사용자가 더 긴 프로세스를 위임했음을 의미할 수 있습니다. 단 하나의 연구 요청이 소스를 열고, 주장을 비교하고, 데이터를 추출하고, 보고서 초안을 작성하고, 출력을 테스트하며, 다음 세션을 위해 교훈을 보존할 수 있습니다. 구매자와 구축자에게 유용한 단위는 처리된 가공되지 않은 토큰 (raw tokens)이 아니라, 달러당, 분당, 그리고 허용된 리스크당 완료된 성공적인 작업이 됩니다.

연구 결과는 이미 단순한 결론을 내리는 것에 대해 경고하고 있습니다. 에이전트 기반 코딩 작업 (agentic coding tasks)에서의 토큰 소비에 관한 최근 연구에 따르면, 에이전트의 작업은 코딩 채팅보다 훨씬 더 많은 토큰을 소비할 수 있으며, 입력 컨텍스트 (input context)가 비용의 상당 부분을 차지한다고 보고합니다. 또한 이 연구는 동일한 작업의 실행 간에 큰 변동이 있음을 발견했으며, 더 많은 토큰 소비가 반드시 더 높은 정확도를 보장하지는 않는다고 보고합니다. 이러한 결과는 실질적인 관찰과 일치합니다. 에이전트는 어려운 경로를 탐색하거나, 실수로부터 반복적으로 회복하거나, 불필요한 컨텍스트를 유지하거나, 가치 있는 다단계 작업을 완료하기 위해 토큰을 소비할 수 있습니다. 총합 수치만으로는 이러한 사례들을 구분할 수 없습니다.

따라서 Hermes가 1위에 도달했다는 것은 세 가지 측면에서 중요합니다. 이는 루틴을 기억하고 학습하는 지속적인 에이전트 (persistent agents)에 대한 실제적인 갈망을 나타냅니다. 메모리, 기술, 그리고 무인 루프 (unattended loops)가 컨텍스트를 빠르게 증폭시킬 수 있기 때문에, 제품 설계의 중심에 비용 제어를 위치시킵니다. 또한 이는 측정의 기준을 높입니다. 신뢰할 수 있는 대시보드는 토큰 총량과 함께 완료율 (completion rates), 인간 수정률 (human correction rates), 캐시 사용 (cache use), 도구 실패율 (tool failure rates), 경과 시간 (elapsed time), 모델 혼합 (model mix), 행사된 권한 (permissions exercised), 그리고 승인된 결과물당 비용 (cost per accepted deliverable)을 결합해야 합니다.

개별 사용자에게 있어 올바른 질문은 구체적입니다. 에이전트가 수용 가능한 비용과 검토 가능한 기록(trail)을 바탕으로 의미 있는 작업을 완료했는가? 팀의 경우, 거버넌스(governance) 또한 똑같이 구체적이어야 합니다. 무인 작업(unattended jobs)에 예산을 할당하십시오. 도구 호출(tool calls)을 기록하십시오. 민감한 작업에는 승인을 요구하십시오. 광범위한 배포 전에 대표적인 작업들로 에이전트를 평가하십시오. 품질이 충분히 유지되는 경우, 일상적인 단계에는 더 작거나 저렴한 모델을 사용하십시오. 작업이 허용하는 경우, 히스토리를 압축하고 관련 있는 메모리만 검색하십시오.

동일한 논리가 콘텐츠 및 연구 워크플로(workflow)에도 적용됩니다. 팀은 ChatGPTGemini를 사용하여 문헌 조사(literature scan)를 정리하고 초안을 작성할 수 있습니다. 논문에 수식이 이미지로만 포함되어 있는 경우, Miss Formula를 통해 해당 시각적 수식을 편집 가능한 수학적 콘텐츠로 변환할 수 있습니다. AI가 생성한 학술용 그림(figure)에 정밀한 출판 편집이 필요한 경우, Editable Figure를 사용하여 이를 편집 가능한 벡터 형식으로 변환할 수 있습니다. 토큰은 워크플로가 사용 가능하고 검증 가능한 결과물(artifacts)에 도달하고, 반복적인 수동 재구성을 피할 때 비로소 가치가 있습니다.

에이전트 제작자들에게도 전략적인 메시지가 있습니다. 자율성(autonomy)이 높아질수록 모든 설계 결정의 영향 범위(surface area)가 확장됩니다. 모든 기술을 매 턴(turn)마다 로드하는 것은 컨텍스트(context)를 낭비할 수 있습니다. 실패한 도구 루프(tool loops)를 반복하는 것은 예산을 소진할 수 있습니다. 지속적인 메모리(persistent memory)는 연속성을 개선할 수 있지만, 검색 및 개인정보 보호 의무를 동시에 증가시킵니다. 토큰 효율성은 비용 효율성, 속도, 환경적 부하(environmental load), 그리고 신뢰성에 영향을 미치기 때문에 제품 품질의 일부입니다.

OpenRouter에서 Hermes Agent가 선두를 달리고 있다는 점은 의미 있는 시장 신호입니다. 개발자들은 지속적인 작업을 수행하고 재사용 가능한 절차(reusable procedures)를 학습하는 에이전트를 실행하는 데 열성적인 것으로 보입니다. 리더보드는 주의(attention)와 연산(computation)이 해당 모델로 이동하고 있다는 증거를 제공합니다. 다음 단계의 경쟁은 더욱 까다로울 것입니다. 에이전트는 자신들의 수조 개에 달하는 토큰(tokens)이 완료된 작업, 제어된 비용, 책임 있는 행동, 그리고 사람들이 신뢰하며 사용할 수 있는 결과물로 전환된다는 것을 증명해야 합니다.

출처

OpenRouter App and Agent Rankings

Nous Research Hermes Agent Repository

Study on Token Consumption in Agentic Coding Tasks

WildClawBench Evaluation of Long Horizon Agents

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0