
Hermes Agent에 headroom를 사용했더니 평균 30% 정도 토큰을 절약할 수 있었던 이야기
요약
Hermes Agent와 headroom를 조합하여 AI 에이전트의 토큰 사용량을 약 30% 절감한 사례를 소개합니다. headroom는 MCP를 활용해 도구 출력을 압축하여 컨텍스트 효율을 높이는 오픈소스 도구입니다.
핵심 포인트
- Hermes Agent와 headroom 조합으로 평균 30% 토큰 절약 가능
- headroom는 MCP를 통해 필요할 때만 원본 데이터를 전개하는 압축 메커니즘 사용
- 도구 출력(파일, 웹 스크레이핑 등)으로 인한 과도한 컨텍스트 유입 문제 해결
- OpenRouter, Anthropic, OpenAI 등 주요 프로바이더 지원
서론
최근 유행하는 퍼스널 에이전트인 「Hermes Agent」에 또 최근 유행하는 토큰 절약 도구인 「headroom」을 조합해 보았더니, 어느 정도 토큰 사용량을 절약할 수 있었습니다. 그 실례를 곁들여 해설하겠습니다.
-
이 기사에서 전달하고 싶은 것
-
Hermes Agent × headroom 조합으로 실측 결과 얼마나 토큰을 절감할 수 있었는가
-
대상 독자
-
AI 에이전트를 일상적으로 사용하는 분, 토큰 소비량으로 고민하고 있는 분
애초에... Hermes Agent란
-
Nous Research 제작의 OSS AI 에이전트 프레임워크
-
다음과 같은 도구를 통합하고 있음
- 파일 조작
- 터미널 (Terminal)
- 브라우저 (Browser)
- GitHub
- Notion
-
스킬 시스템으로 워크플로우 (Workflow) 재사용 가능
-
자립적으로 성장하는 AI 에이전트
다양한 태스크를 맡길 수 있는 편리한 AI 에이전트이지만, 다음과 같은 단점도 존재합니다.
- 도구의 출력이 거대해지기 쉬움 (파일 읽기, Web 스크레이핑, 검색 결과 등)
- 구체적인 예시
- 단 한 번의
read_file이나terminal실행으로 수천~수만 토큰이 컨텍스트 (Context)로 흘러 들어감
- 단 한 번의
- 구체적인 예시
- 특히 긴 세션의 경우 불필요한 컨텍스트가 쌓여 비용 증가 + 성능 저하 발생
- 이는 AI 에이전트에 국한된 이야기가 아니라, LLM 자체의 특성이기도 함
headroom란
-
AI 에이전트에 보내는 컨텍스트를 압축하여 토큰 소비량을 줄이는 OSS
-
컨텍스트 압축 메커니즘
- LLM에 흘려보내기 전에 도구 출력을 압축하며, MCP를 이용함으로써 LLM이 필요로 할 때 전개할 수 있음
- 상세 정보가 필요할 때만
hash키로 원본 데이터를 취득
-
상세 정보가 필요할 때만
- 도구 출력 → headroom Proxy가 투명하게 압축 → 압축된 텍스트만이 LLM의 컨텍스트에 들어감
- 컨텍스트는 전부 유지하고 있지만, LLM에 전달할 때만 요약된 상태를 구현
-
LLM에 흘려보내기 전에 도구 출력을 압축하며, MCP를 이용함으로써 LLM이 필요로 할 때 전개할 수 있음
-
AI 에이전트는 메모리 (Memory)나 도구의 입력 등, 출력보다 입력에 더 많은 비용이 발생함
-
대응 프로바이더 (Provider): OpenRouter / Anthropic / OpenAI 등 주요 서비스를 커버
상세히 해설해 주는 기사가 존재하므로, 자세한 내용은 다른 해설 기사나 공식 문서를 참조해 주세요.
실제로 사용해 보기
셋업 (Setup)
-
필요한 것
- Hermes Agent
- npm/uv
-
설정 순서
uv tool install headroom-ai로 headroom를 설치- Hermes Agent의 config.yaml에서 headroom의 MCP를 활성화한다
# ~/.hermes/config.yaml mcp_servers: headroom: command: /home/<사용자명>/.local/bin/headroom args: ["mcp", "serve"]
-
컨텍스트 압축 프록시를 활성화한다
# ~/.hermes/config.yaml model: default: <임의의 모델> provider: <임의의 프로바이더 (OpenAI 호환)> base_url: http://127.0.0.1:8787/v1 <- headroom을 향하도록 설정 api_mode: chat_completions
실측 데이터 도입 전 vs 도입 후
환경
- 모델: deepseek-v4-pro
- 도입 후 기간: 약 4일간
사용 용도
- Web 정보 조사 및 비교
- 코딩 (Coding)
- 잡무 (그래프 작성 등)
압축률
- headroom에는 통계 (stats)를 취할 수 있는 API가 있어, 거기서 요약(Summary)을 가져왔습니다.
| 지표 | 수치 |
|---|---|
| 압축된 API 요청 수 | 2,574 / 3,249 (약 79%) |
| ... |
- LLM 생성 그래프
체감
-
긴 세션에서도 컨텍스트가 꽉 차지 않게 되었다.
-
리트리브 (Retrieve)의 번거로움은 거의 의식하지 못할 수준이다.
-
자동으로 압축되며, 필요한 경우 LLM이 알아서 해제한다.
-
사용 중인 프로바이더의 토큰 제한에 걸리는 일이 줄어들었다.
주의점·단점
-
압축된 데이터의 신선도 문제 (TTL이 만료되어 오래되면 가져올 수 없음)
-
대화를 시작한 후 시간이 흐른 뒤 다음 대화를 시작할 때, 이전 대화를 해제(decompress)하려고 해도 TTL이 만료되면 해제가 불가능해짐
-
완전한 원본 데이터가 필요한 상황에서는 retrieve(검색)하는 단계가 한 번 더 늘어남
-
이러한 경우 LLM이 해제를 포기해 버리는 패턴이 있었음 -> 지식 베이스(Knowledge Base)를 바탕으로 답변하여 정밀도가 저하될 가능성?
-
압축률은 출력의 종류에 따라 달라짐
요약
-
Hermes Agent에 headroom를 도입했더니
누적 8,165만 토큰 이상을 절감할 수 있었다 - 구현 비용은 거의 제로에 가까운 반면 리턴이 매우 큼 -
장기간 헤비하게 사용하는 사용자일수록 혜택이 큼
-
정밀도 저하도 거의 없으므로 도입을 강력히 추천함
참고 링크
- Hermes Agent
- headroom
Discussion

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기