이 설정을 통해 Hermes 에이전트의 토큰 비용을 대폭 절감하세요
요약
Hermes 에이전트 운영 시 발생하는 불필요한 백그라운드 태스크 토큰 비용을 절감하는 구체적인 설정 방법을 소개합니다. 보조 모델 활용, 서브 에이전트 모델 분리, 추론 노력 조절 및 압축 임계값 설정을 통해 효율적인 에이전트 운영이 가능합니다.
핵심 포인트
- 백그라운드 태스크에 저렴한 보조 모델(Gemini Flash 등)을 할당하여 비용 절감
- 서브 에이전트에는 저렴한 모델을, 메인 에이전트에는 프리미엄 모델을 사용하는 계층적 구조 적용
- 작업 복잡도에 따라 reasoning_effort 설정을 조절하여 불필요한 추론 토큰 방지
- 압축 임계값(Compression Threshold) 조절을 통해 컨텍스트 관리 효율화
HERMES 에이전트 토큰 비용이
이 설정을 통해 대폭 절감됩니다.
비용의 대부분은 활성 사용(Active use)이 아니라,
잘못 설정된 백그라운드 태스크(Background tasks)에서 발생합니다.
한 소프트웨어 기업이 팀 전체에 Hermes를 도입했습니다.
OpenAI 구독에서 OpenRouter로 전환했습니다.
처음으로 정확한 토큰 비용을 확인할 수 있었습니다.
그 수치는 예상보다 훨씬 높았습니다.
해결책은 더 저렴한 모델을 사용하는 것이 아니었습니다.
이미 있는 것들을 구성(Configuring)하는 것이었습니다.
토큰을 잡아먹는 요소:
당신이 보내는 모든 메시지에는 다음이 포함됩니다:
→ 시스템 프롬프트 (System prompt)
→ SOUL.md + memory.md + user.md
→ 모든 스킬 헤더 (이름 + 설명)
→ 모든 MCP 도구 스키마 (Tool schema)
→ 전체 대화 기록 (Conversation history)
Hermes는 90개 이상의 스킬을 탑재하여 출시됩니다.
각 스킬은 메시지당 비용을 추가합니다.
Hermes가 워크플로(Workflows)로부터 새로운 스킬을 자동으로 생성함에 따라
그 수치는 계속 증가합니다.
그 외에도:
→ 자동 메모리 (Auto-memory)가 대화에서 당신에 관한 사실을 스캔합니다.
→ 스킬 진화 (Skill evolution)가 워크플로를 스킬로 전환해야 하는지 확인합니다.
→ 이 두 가지 모두 당신이 요청하지 않은 토큰을 소모합니다.
토큰의 흐름을 추적하세요:
Hermes Insights
지난 30일간의 비용 내역을 보여줍니다.
어떤 도구와 스킬이 토큰을 가장 많이 사용했는지,
활동 패턴, 가장 긴 세션 등을 보여줍니다.
무엇을 변경하기 전에 여기서부터 시작하세요.
절감법 1 — 보조 모델 (Auxiliary Models)
백그라운드 태스크는 기본적으로 메인 모델을 사용합니다.
이미지 읽기, 스킬 검색, MCP 도구 로딩,
웹 추출(Web extraction), 프로필 설명 등.
이 중 어느 것도 최첨단 추론(Frontier reasoning) 능력을 필요로 하지 않습니다.
데스크톱 앱, 대시보드 또는 config.yaml에서 설정하세요:
auxiliary:
web_extract:
provider: openrouter
model: google/gemini-3-flash-preview
vision:
provider: openrouter
model: google/gemini-3-flash-preview
모든 백그라운드 태스크는 저렴한 모델로 실행합니다.
메인 모델은 추론(Reasoning)에만 사용하세요.
절감법 2 — 서브 에이전트 모델 (Sub-Agent Model)
모든 서브 에이전트는 자체적인 세션입니다.
웹 검색, 파일 스캔, 리서치 태스크 등.
이것들을 프리미엄 모델로 실행하는 것은 토큰을 낭비하는 것입니다.
delegation:
model: "deepseek/deepseek-v4"
모든 자식(Children)은 저렴하게 실행하고, 부모(Parent)는 프리미엄을 유지합니다.
절감법 3 — 추론 노력 (Reasoning Effort)
모델이 턴당 얼마나 많이 생각할지를 제어합니다.
높은 노력(High effort) = 더 나은 출력 = 더 많은 토큰 소모.
agent:
reasoning_effort: low
단순한 작업의 경우: low 또는 minimum.
복잡한 추론이 필요한 경우: high.
정기적인 크론 잡 (cron jobs)의 경우: 사고(thinking) 기능을 완전히 끕니다.
CUT 4 — 압축 임계값 (COMPRESSION THRESHOLD)
기본값: 50%. 컨텍스트의 절반이 차면 압축을 시작합니다.
값이 낮을수록 = 더 일찍 압축함 = 턴당 토큰 소모 감소.
compression:
threshold: 0.40
CUT 5 — 목표 비율 (TARGET RATIO)
압축 후에도 Hermes는 압축되지 않은 메시지의
일부(tail)를 유지합니다.
기본값: 20%.
compression:
target_ratio: 0.15
값이 낮을수록 = 이전 대화가 더 적게 유지됨.
압축 후 메시지당 토큰 소모 감소.
CUT 6 — 사용하지 않는 스킬 제거 (TRIM UNUSED SKILLS)
90개 이상의 스킬이 Hermes와 함께 제공됩니다.
각 헤더는 매 턴마다 컨텍스트로 로드됩니다.
사용하지 않는 것은 비활성화하세요:
hermes skills list
hermes skills disable [skill-name]
실제로 사용하는 스킬만 유지하세요.
CUT 7 — 사용하지 않는 도구 및 MCP 제거 (TRIM UNUSED TOOLS AND MCPs)
모든 도구(tool)와 MCP 서버는 컨텍스트에 스키마(schemas)를 추가합니다.
hermes tools list
hermes tools disable [tool-name]
사용하지 않는 MCP 서버는 연결을 해제하세요.
유지하는 서버의 경우, 도구 검색 (Tool Search)을 활성화하세요:
tools:
tool_search:
enabled: auto
모든 도구를 한꺼번에 로드하는 대신 필요할 때만 로드합니다.
~300 토큰 vs 수천 토큰.
CUT 8 — 최대 턴 수 (MAX TURNS)
기본값: 대화당 90회의 도구 호출 (tool-calling) 반복.
혼란에 빠진 에이전트는 매번 전체 컨텍스트를 다시 보내며
90회의 턴을 모두 소모해 버릴 수 있습니다.
agent:
max_turns: 30
공식 권장 사항:
집중적인 작업에는 20-30회.
자유로운 탐색에는 50-100회.
정기적인 작업에는 더 낮게 설정하세요.
에이전트가 해결할 수 없는 문제에 토큰을 낭비하기 전에
멈추게 됩니다.
Hermes에는 루프 탐지 (loop detection) 기능도 내장되어 있습니다.
동일한 도구 호출이 반복적으로 실패하거나
진전 없이 동일한 결과만 반환하는 것을 감지하면,
모델이 스스로 수정할 수 있도록 경고를 주입합니다.
별도의 설정은 필요하지 않으며 기본적으로 작동합니다.
CUT 9 — 크론 잡 제한 (CRON JOB LIMITS)
크론 잡 (cron jobs)은 기본적으로 max_turns가 없습니다.
백그라운드 작업은 제한 없이 계속 실행되어
토큰을 계속 소모할 수 있습니다.
goals:
max_turns: 20
모든 예약된 작업에 상한선을 두세요.
무언가 변경되었을 때만 실행되어야 하는 작업의 경우
wakeAgent 게이트와 함께 사용하세요.
CUT 10 — 재프롬프팅 대신 실행 취소(UNDO) 사용하기
에이전트가 무언가 잘못했을 때,
새로운 프롬프트(prompt)를 보내지 마세요 (컨텍스트 (context)가 추가됩니다).
/undo를 사용하여 한 메시지 전으로 되돌아가세요.
그다음 수정된 프롬프트를 제공하세요.
이렇게 하면 실패한 응답이 대화 기록 (conversation history)에 남아 발생하는 토큰 (tokens)을 절약할 수 있습니다.
절감해서는 안 되는 것:
자동 메모리 (auto-memory)는 토큰을 소비하지만,
Hermes가 당신에 대해 학습하도록 만듭니다.
이를 비활성화하면 비용을 절약할 수 있습니다.
하지만 이를 유지하면 향후 모든 세션 (session)에서 시간을 절약할 수 있습니다.
팀은 이를 켜두었습니다.
복리적인 가치가 메시지당 비용보다 더 크기 때문입니다.
모든 설정: 데스크톱 앱 (Desktop app), 대시보드 (Dashboard), 또는 config.yaml.
기사에서 Hermes 아키텍처 (architecture) 전체를 심층 분석해 보세요 👇
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: MCP의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기