본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 06. 15. 05:33

Hermes Agent에 headroom를 사용했더니 평균 30% 정도 토큰을 절약할 수 있었던 이야기

요약

Hermes Agent와 headroom를 조합하여 AI 에이전트의 토큰 사용량을 약 30% 절감한 사례를 소개합니다. headroom는 MCP를 활용해 도구 출력을 압축하여 컨텍스트 효율을 높이는 오픈소스 도구입니다.

핵심 포인트

  • Hermes Agent와 headroom 조합으로 평균 30% 토큰 절약 가능
  • headroom는 MCP를 통해 필요할 때만 원본 데이터를 전개하는 압축 메커니즘 사용
  • 도구 출력(파일, 웹 스크레이핑 등)으로 인한 과도한 컨텍스트 유입 문제 해결
  • OpenRouter, Anthropic, OpenAI 등 주요 프로바이더 지원

서론

최근 유행하는 퍼스널 에이전트인 「Hermes Agent」에 또 최근 유행하는 토큰 절약 도구인 「headroom」을 조합해 보았더니, 어느 정도 토큰 사용량을 절약할 수 있었습니다. 그 실례를 곁들여 해설하겠습니다.

  • 이 기사에서 전달하고 싶은 것

  • Hermes Agent × headroom 조합으로 실측 결과 얼마나 토큰을 절감할 수 있었는가

  • 대상 독자

  • AI 에이전트를 일상적으로 사용하는 분, 토큰 소비량으로 고민하고 있는 분

애초에... Hermes Agent란

  • Nous Research 제작의 OSS AI 에이전트 프레임워크

  • 다음과 같은 도구를 통합하고 있음

    • 파일 조작
    • 터미널 (Terminal)
    • 브라우저 (Browser)
    • GitHub
    • Notion
  • 스킬 시스템으로 워크플로우 (Workflow) 재사용 가능

  • 자립적으로 성장하는 AI 에이전트

다양한 태스크를 맡길 수 있는 편리한 AI 에이전트이지만, 다음과 같은 단점도 존재합니다.

  • 도구의 출력이 거대해지기 쉬움 (파일 읽기, Web 스크레이핑, 검색 결과 등)
  • 구체적인 예시
    • 단 한 번의 read_file이나 terminal 실행으로 수천~수만 토큰이 컨텍스트 (Context)로 흘러 들어감
  • 구체적인 예시
    • 특히 긴 세션의 경우 불필요한 컨텍스트가 쌓여 비용 증가 + 성능 저하 발생
    • 이는 AI 에이전트에 국한된 이야기가 아니라, LLM 자체의 특성이기도 함

headroom란

  • AI 에이전트에 보내는 컨텍스트를 압축하여 토큰 소비량을 줄이는 OSS

  • 컨텍스트 압축 메커니즘

    • LLM에 흘려보내기 전에 도구 출력을 압축하며, MCP를 이용함으로써 LLM이 필요로 할 때 전개할 수 있음
    • 상세 정보가 필요할 때만 hash 키로 원본 데이터를 취득
  • 상세 정보가 필요할 때만

    • 도구 출력 → headroom Proxy가 투명하게 압축 → 압축된 텍스트만이 LLM의 컨텍스트에 들어감
    • 컨텍스트는 전부 유지하고 있지만, LLM에 전달할 때만 요약된 상태를 구현
  • LLM에 흘려보내기 전에 도구 출력을 압축하며, MCP를 이용함으로써 LLM이 필요로 할 때 전개할 수 있음

  • AI 에이전트는 메모리 (Memory)나 도구의 입력 등, 출력보다 입력에 더 많은 비용이 발생함

  • 대응 프로바이더 (Provider): OpenRouter / Anthropic / OpenAI 등 주요 서비스를 커버

상세히 해설해 주는 기사가 존재하므로, 자세한 내용은 다른 해설 기사나 공식 문서를 참조해 주세요.

실제로 사용해 보기

셋업 (Setup)

  • 필요한 것

    • Hermes Agent
    • npm/uv
  • 설정 순서

    • uv tool install headroom-ai로 headroom를 설치
    • Hermes Agent의 config.yaml에서 headroom의 MCP를 활성화한다
      # ~/.hermes/config.yaml mcp_servers: headroom: command: /home/<사용자명>/.local/bin/headroom args: ["mcp", "serve"]
  • 컨텍스트 압축 프록시를 활성화한다
    # ~/.hermes/config.yaml model: default: <임의의 모델> provider: <임의의 프로바이더 (OpenAI 호환)> base_url: http://127.0.0.1:8787/v1 <- headroom을 향하도록 설정 api_mode: chat_completions

실측 데이터 도입 전 vs 도입 후

환경

  • 모델: deepseek-v4-pro
  • 도입 후 기간: 약 4일간

사용 용도

  • Web 정보 조사 및 비교
  • 코딩 (Coding)
  • 잡무 (그래프 작성 등)

압축률

  • headroom에는 통계 (stats)를 취할 수 있는 API가 있어, 거기서 요약(Summary)을 가져왔습니다.
지표수치
압축된 API 요청 수2,574 / 3,249 (약 79%)
...
  • LLM 생성 그래프

체감

  • 긴 세션에서도 컨텍스트가 꽉 차지 않게 되었다.

  • 리트리브 (Retrieve)의 번거로움은 거의 의식하지 못할 수준이다.

  • 자동으로 압축되며, 필요한 경우 LLM이 알아서 해제한다.

  • 사용 중인 프로바이더의 토큰 제한에 걸리는 일이 줄어들었다.

주의점·단점

  • 압축된 데이터의 신선도 문제 (TTL이 만료되어 오래되면 가져올 수 없음)

  • 대화를 시작한 후 시간이 흐른 뒤 다음 대화를 시작할 때, 이전 대화를 해제(decompress)하려고 해도 TTL이 만료되면 해제가 불가능해짐

  • 완전한 원본 데이터가 필요한 상황에서는 retrieve(검색)하는 단계가 한 번 더 늘어남

  • 이러한 경우 LLM이 해제를 포기해 버리는 패턴이 있었음 -> 지식 베이스(Knowledge Base)를 바탕으로 답변하여 정밀도가 저하될 가능성?

  • 압축률은 출력의 종류에 따라 달라짐

요약

  • Hermes Agent에 headroom를 도입했더니
    누적 8,165만 토큰 이상을 절감할 수 있었다 - 구현 비용은 거의 제로에 가까운 반면 리턴이 매우 큼

  • 장기간 헤비하게 사용하는 사용자일수록 혜택이 큼

  • 정밀도 저하도 거의 없으므로 도입을 강력히 추천함

참고 링크

  • Hermes Agent
  • headroom

Discussion

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0