Hermes Agent에 headroom를 사용했더니 평균 30% 정도 토큰을 절약할 수 있었던 이야기

요약

Hermes Agent와 headroom를 조합하여 AI 에이전트의 토큰 사용량을 약 30% 절감한 사례를 소개합니다. headroom는 MCP를 활용해 도구 출력을 압축하여 컨텍스트 효율을 높이는 오픈소스 도구입니다.

핵심 포인트

Hermes Agent와 headroom 조합으로 평균 30% 토큰 절약 가능
headroom는 MCP를 통해 필요할 때만 원본 데이터를 전개하는 압축 메커니즘 사용
도구 출력(파일, 웹 스크레이핑 등)으로 인한 과도한 컨텍스트 유입 문제 해결
OpenRouter, Anthropic, OpenAI 등 주요 프로바이더 지원

서론

최근 유행하는 퍼스널 에이전트인 「Hermes Agent」에 또 최근 유행하는 토큰 절약 도구인 「headroom」을 조합해 보았더니, 어느 정도 토큰 사용량을 절약할 수 있었습니다. 그 실례를 곁들여 해설하겠습니다.

이 기사에서 전달하고 싶은 것
Hermes Agent × headroom 조합으로 실측 결과 얼마나 토큰을 절감할 수 있었는가
대상 독자
AI 에이전트를 일상적으로 사용하는 분, 토큰 소비량으로 고민하고 있는 분

애초에... Hermes Agent란

Nous Research 제작의 OSS AI 에이전트 프레임워크
다음과 같은 도구를 통합하고 있음
- 파일 조작
- 터미널 (Terminal)
- 브라우저 (Browser)
- GitHub
- Notion
스킬 시스템으로 워크플로우 (Workflow) 재사용 가능
자립적으로 성장하는 AI 에이전트

다양한 태스크를 맡길 수 있는 편리한 AI 에이전트이지만, 다음과 같은 단점도 존재합니다.

도구의 출력이 거대해지기 쉬움 (파일 읽기, Web 스크레이핑, 검색 결과 등)
구체적인 예시
- 단 한 번의 read_file이나 terminal 실행으로 수천~수만 토큰이 컨텍스트 (Context)로 흘러 들어감
구체적인 예시
- 특히 긴 세션의 경우 불필요한 컨텍스트가 쌓여 비용 증가 + 성능 저하 발생
- 이는 AI 에이전트에 국한된 이야기가 아니라, LLM 자체의 특성이기도 함

headroom란

AI 에이전트에 보내는 컨텍스트를 압축하여 토큰 소비량을 줄이는 OSS
컨텍스트 압축 메커니즘
- LLM에 흘려보내기 전에 도구 출력을 압축하며, MCP를 이용함으로써 LLM이 필요로 할 때 전개할 수 있음
- 상세 정보가 필요할 때만 hash 키로 원본 데이터를 취득
상세 정보가 필요할 때만
- 도구 출력 → headroom Proxy가 투명하게 압축 → 압축된 텍스트만이 LLM의 컨텍스트에 들어감
- 컨텍스트는 전부 유지하고 있지만, LLM에 전달할 때만 요약된 상태를 구현
LLM에 흘려보내기 전에 도구 출력을 압축하며, MCP를 이용함으로써 LLM이 필요로 할 때 전개할 수 있음
AI 에이전트는 메모리 (Memory)나 도구의 입력 등, 출력보다 입력에 더 많은 비용이 발생함
대응 프로바이더 (Provider): OpenRouter / Anthropic / OpenAI 등 주요 서비스를 커버

상세히 해설해 주는 기사가 존재하므로, 자세한 내용은 다른 해설 기사나 공식 문서를 참조해 주세요.

실제로 사용해 보기

셋업 (Setup)

필요한 것
- Hermes Agent
- npm/uv
설정 순서
- uv tool install headroom-ai로 headroom를 설치
- Hermes Agent의 config.yaml에서 headroom의 MCP를 활성화한다
  # ~/.hermes/config.yaml mcp_servers: headroom: command: /home/<사용자명>/.local/bin/headroom args: ["mcp", "serve"]
컨텍스트 압축 프록시를 활성화한다
# ~/.hermes/config.yaml model: default: <임의의 모델> provider: <임의의 프로바이더 (OpenAI 호환)> base_url: http://127.0.0.1:8787/v1 <- headroom을 향하도록 설정 api_mode: chat_completions

실측 데이터 도입 전 vs 도입 후

환경

모델: deepseek-v4-pro
도입 후 기간: 약 4일간

사용 용도

Web 정보 조사 및 비교
코딩 (Coding)
잡무 (그래프 작성 등)

압축률

headroom에는 통계 (stats)를 취할 수 있는 API가 있어, 거기서 요약(Summary)을 가져왔습니다.

지표	수치
압축된 API 요청 수	2,574 / 3,249 (약 79%)
...

LLM 생성 그래프

체감

긴 세션에서도 컨텍스트가 꽉 차지 않게 되었다.
리트리브 (Retrieve)의 번거로움은 거의 의식하지 못할 수준이다.
자동으로 압축되며, 필요한 경우 LLM이 알아서 해제한다.
사용 중인 프로바이더의 토큰 제한에 걸리는 일이 줄어들었다.

주의점·단점

압축된 데이터의 신선도 문제 (TTL이 만료되어 오래되면 가져올 수 없음)
대화를 시작한 후 시간이 흐른 뒤 다음 대화를 시작할 때, 이전 대화를 해제(decompress)하려고 해도 TTL이 만료되면 해제가 불가능해짐
완전한 원본 데이터가 필요한 상황에서는 retrieve(검색)하는 단계가 한 번 더 늘어남
이러한 경우 LLM이 해제를 포기해 버리는 패턴이 있었음 -> 지식 베이스(Knowledge Base)를 바탕으로 답변하여 정밀도가 저하될 가능성?
압축률은 출력의 종류에 따라 달라짐

요약

Hermes Agent에 headroom를 도입했더니
누적 8,165만 토큰 이상을 절감할 수 있었다 - 구현 비용은 거의 제로에 가까운 반면 리턴이 매우 큼
장기간 헤비하게 사용하는 사용자일수록 혜택이 큼
정밀도 저하도 거의 없으므로 도입을 강력히 추천함

참고 링크

Hermes Agent
headroom

Discussion

AI 자동 생성 콘텐츠

원문 바로가기