이 설정을 통해 Hermes 에이전트의 토큰 비용을 대폭 절감하세요

HERMES 에이전트 토큰 비용이
이 설정을 통해 대폭 절감됩니다.
비용의 대부분은 활성 사용(Active use)이 아니라,
잘못 설정된 백그라운드 태스크(Background tasks)에서 발생합니다.

한 소프트웨어 기업이 팀 전체에 Hermes를 도입했습니다.
OpenAI 구독에서 OpenRouter로 전환했습니다.
처음으로 정확한 토큰 비용을 확인할 수 있었습니다.
그 수치는 예상보다 훨씬 높았습니다.

해결책은 더 저렴한 모델을 사용하는 것이 아니었습니다.
이미 있는 것들을 구성(Configuring)하는 것이었습니다.

토큰을 잡아먹는 요소:

당신이 보내는 모든 메시지에는 다음이 포함됩니다:
→ 시스템 프롬프트 (System prompt)
→ SOUL.md + memory.md + user.md
→ 모든 스킬 헤더 (이름 + 설명)
→ 모든 MCP 도구 스키마 (Tool schema)
→ 전체 대화 기록 (Conversation history)

Hermes는 90개 이상의 스킬을 탑재하여 출시됩니다.
각 스킬은 메시지당 비용을 추가합니다.
Hermes가 워크플로(Workflows)로부터 새로운 스킬을 자동으로 생성함에 따라
그 수치는 계속 증가합니다.

그 외에도:
→ 자동 메모리 (Auto-memory)가 대화에서 당신에 관한 사실을 스캔합니다.
→ 스킬 진화 (Skill evolution)가 워크플로를 스킬로 전환해야 하는지 확인합니다.
→ 이 두 가지 모두 당신이 요청하지 않은 토큰을 소모합니다.

토큰의 흐름을 추적하세요:

Hermes Insights

지난 30일간의 비용 내역을 보여줍니다.
어떤 도구와 스킬이 토큰을 가장 많이 사용했는지,
활동 패턴, 가장 긴 세션 등을 보여줍니다.
무엇을 변경하기 전에 여기서부터 시작하세요.

절감법 1 — 보조 모델 (Auxiliary Models)

백그라운드 태스크는 기본적으로 메인 모델을 사용합니다.
이미지 읽기, 스킬 검색, MCP 도구 로딩,
웹 추출(Web extraction), 프로필 설명 등.
이 중 어느 것도 최첨단 추론(Frontier reasoning) 능력을 필요로 하지 않습니다.

데스크톱 앱, 대시보드 또는 config.yaml에서 설정하세요:

auxiliary:
web_extract:
provider: openrouter
model: google/gemini-3-flash-preview
vision:
provider: openrouter
model: google/gemini-3-flash-preview

모든 백그라운드 태스크는 저렴한 모델로 실행합니다.
메인 모델은 추론(Reasoning)에만 사용하세요.

절감법 2 — 서브 에이전트 모델 (Sub-Agent Model)

모든 서브 에이전트는 자체적인 세션입니다.
웹 검색, 파일 스캔, 리서치 태스크 등.
이것들을 프리미엄 모델로 실행하는 것은 토큰을 낭비하는 것입니다.

delegation:
model: "deepseek/deepseek-v4"

모든 자식(Children)은 저렴하게 실행하고, 부모(Parent)는 프리미엄을 유지합니다.

절감법 3 — 추론 노력 (Reasoning Effort)

모델이 턴당 얼마나 많이 생각할지를 제어합니다.
높은 노력(High effort) = 더 나은 출력 = 더 많은 토큰 소모.

agent:
reasoning_effort: low

단순한 작업의 경우: low 또는 minimum.
복잡한 추론이 필요한 경우: high.
정기적인 크론 잡 (cron jobs)의 경우: 사고(thinking) 기능을 완전히 끕니다.

CUT 4 — 압축 임계값 (COMPRESSION THRESHOLD)

기본값: 50%. 컨텍스트의 절반이 차면 압축을 시작합니다.
값이 낮을수록 = 더 일찍 압축함 = 턴당 토큰 소모 감소.

compression:
threshold: 0.40

CUT 5 — 목표 비율 (TARGET RATIO)

압축 후에도 Hermes는 압축되지 않은 메시지의
일부(tail)를 유지합니다.
기본값: 20%.

compression:
target_ratio: 0.15

값이 낮을수록 = 이전 대화가 더 적게 유지됨.
압축 후 메시지당 토큰 소모 감소.

CUT 6 — 사용하지 않는 스킬 제거 (TRIM UNUSED SKILLS)

90개 이상의 스킬이 Hermes와 함께 제공됩니다.
각 헤더는 매 턴마다 컨텍스트로 로드됩니다.
사용하지 않는 것은 비활성화하세요:

hermes skills list
hermes skills disable [skill-name]

실제로 사용하는 스킬만 유지하세요.

CUT 7 — 사용하지 않는 도구 및 MCP 제거 (TRIM UNUSED TOOLS AND MCPs)

모든 도구(tool)와 MCP 서버는 컨텍스트에 스키마(schemas)를 추가합니다.

hermes tools list
hermes tools disable [tool-name]

사용하지 않는 MCP 서버는 연결을 해제하세요.
유지하는 서버의 경우, 도구 검색 (Tool Search)을 활성화하세요:

tools:
tool_search:
enabled: auto

모든 도구를 한꺼번에 로드하는 대신 필요할 때만 로드합니다.
~300 토큰 vs 수천 토큰.

CUT 8 — 최대 턴 수 (MAX TURNS)

기본값: 대화당 90회의 도구 호출 (tool-calling) 반복.
혼란에 빠진 에이전트는 매번 전체 컨텍스트를 다시 보내며
90회의 턴을 모두 소모해 버릴 수 있습니다.

agent:
max_turns: 30

공식 권장 사항:
집중적인 작업에는 20-30회.
자유로운 탐색에는 50-100회.

정기적인 작업에는 더 낮게 설정하세요.
에이전트가 해결할 수 없는 문제에 토큰을 낭비하기 전에
멈추게 됩니다.

Hermes에는 루프 탐지 (loop detection) 기능도 내장되어 있습니다.
동일한 도구 호출이 반복적으로 실패하거나
진전 없이 동일한 결과만 반환하는 것을 감지하면,
모델이 스스로 수정할 수 있도록 경고를 주입합니다.
별도의 설정은 필요하지 않으며 기본적으로 작동합니다.

CUT 9 — 크론 잡 제한 (CRON JOB LIMITS)

크론 잡 (cron jobs)은 기본적으로 max_turns가 없습니다.
백그라운드 작업은 제한 없이 계속 실행되어
토큰을 계속 소모할 수 있습니다.

goals:
max_turns: 20

모든 예약된 작업에 상한선을 두세요.
무언가 변경되었을 때만 실행되어야 하는 작업의 경우
wakeAgent 게이트와 함께 사용하세요.

CUT 10 — 재프롬프팅 대신 실행 취소(UNDO) 사용하기

에이전트가 무언가 잘못했을 때,
새로운 프롬프트(prompt)를 보내지 마세요 (컨텍스트 (context)가 추가됩니다).
/undo를 사용하여 한 메시지 전으로 되돌아가세요.
그다음 수정된 프롬프트를 제공하세요.

이렇게 하면 실패한 응답이 대화 기록 (conversation history)에 남아 발생하는 토큰 (tokens)을 절약할 수 있습니다.

절감해서는 안 되는 것:

자동 메모리 (auto-memory)는 토큰을 소비하지만,
Hermes가 당신에 대해 학습하도록 만듭니다.
이를 비활성화하면 비용을 절약할 수 있습니다.
하지만 이를 유지하면 향후 모든 세션 (session)에서 시간을 절약할 수 있습니다.

팀은 이를 켜두었습니다.
복리적인 가치가 메시지당 비용보다 더 크기 때문입니다.

모든 설정: 데스크톱 앱 (Desktop app), 대시보드 (Dashboard), 또는 config.yaml.

기사에서 Hermes 아키텍처 (architecture) 전체를 심층 분석해 보세요 👇

Insights

이 설정을 통해 Hermes 에이전트의 토큰 비용을 대폭 절감하세요

요약

핵심 포인트

댓글

작은 로컬 모델들이 실제 코드를 작성하도록 10일 동안 강제해 보았습니다. 실제로 무엇이 망가지는지에 대하여

내가 '가능성'이라는 말을 했다는 이유로 금지 조치를 당한 이유

글로벌 브랜드를 압박하는 숨겨진 현금 함정

작은 로컬 모델들이 실제 코드를 작성하도록 10일 동안 강제해 보았습니다. 실제로 무엇이 망가지는지에 대하여

내가 '가능성'이라는 말을 했다는 이유로 금지 조치를 당한 이유

글로벌 브랜드를 압박하는 숨겨진 현금 함정