자기 개선하는 AI 에이전트 「Hermes Agent」를 로컬 환경에서 검증해 보았다

안녕하세요! 주식회사 NeurestX의 미조베입니다.

최근 LLM(대규모 언어 모델)에 태스크의 계획부터 실행까지 맡기는 「AI 에이전트」가 차례차례 등장하고 있습니다. 이번에 검증할 「Hermes Agent」 는 수많은 AI 에이전트 중에서도 조금 독특한 특징을 가지고 있으며, 특히 「자기 개선 (self-improving)」 메커니즘이 매우 특징적인 도구입니다.

Hermes Agent는 터미널 상에서 독립적으로 동작하는 CLI 기반의 AI 에이전트입니다. 터미널에서 동작하는 강력한 AI 에이전트라고 하면, Anthropic의 「Claude Code」, OpenAI의 「Codex CLI」 가 대표적입니다. Claude Code, Codex CLI는 Claude Opus 4.7, GPT 5.5 등의 압도적인 지능을 사용하여 프로젝트의 태스크를 수행하는 강력한 도구입니다.

그에 반해, Hermes Agent의 강점은 태스크를 수행하는 과정에서 「자기 개선」 을 해나간다는 점입니다. 단순히 그 자리의 문제를 해결하고 끝나는 것이 아니라, 과거의 대화나 실패에서 얻은 정보를 바탕으로 자신만의 전용 스킬 라이브러리(Skill Library)로서 자동으로 축적·체계화해 나갑니다. 성공이나 실패의 경험으로부터 새로운 스킬을 자동으로 생성하고, 독자적인 스킬 라이브러리를 구축해 나가는 것이 최대 특징입니다.

또한, 유사한 도구로 「OpenClaw」 도 존재합니다. OpenClaw는 사용자의 디바이스에서 동작하는 퍼스널 AI 어시스턴트이지만, 양자의 결정적인 차이는 「스킬 습득 방법」 입니다. OpenClaw는 인간이 사전에 추가한 스킬을 사용하여 주어진 워크플로우(Workflow)를 충실히 수행하는 것에 특화되어 있습니다. Hermes Agent는 과제에 직면했을 때 자율적으로 새로운 스킬을 생성하고, 자신의 능력 그 자체를 개선해 나가는 「자기 개선형」 설계 사상을 가지고 있으며, 이 점이 근본적으로 다릅니다.

이번에는 클라우드의 LLM에 의존하지 않고 완전한 로컬 환경을 구축하기 위해, 다음과 같은 데스크톱 PC 환경에서 환경 구축을 진행했습니다.

CPU: Intel Core i7-14700F
GPU: NVIDIA GeForce RTX 4070 (VRAM 12GB)
RAM: 32GB
OS: Windows 11 (WSL2 / Ubuntu)

Windows 11의 네이티브 환경으로의 설치는 지원되지 않기 때문에, WSL2(Ubuntu) 상에서 다음 명령어를 실행하여 설치했습니다.

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

설치 완료 후, 다음 명령어를 실행하여 셋업을 진행합니다.

hermes

여기에서는 사용할 LLM 모델 등을 설정합니다. 이번에는 로컬 환경에서의 실행을 위해 LM Studio라는 도구를 사용하였고, 해당 로컬 서버를 이용했습니다.

사용할 모델로는 Google이 오픈 소스로 공개한 「Gemma 4」를 선택했습니다. Gemma 4에는 다양한 모델 사이즈가 있지만, 이번 검증에서는 비교적 경량인 「gemma-4-E4B-it」와 복잡한 태스크를 수행하기 위한 「gemma-4-26B-A4B-it」를 사용했습니다. 구체적으로는 HuggingFace에서 Unsloth의 양자화된 모델(GGUF 형식)을 LM Studio에 설치하여 다음과 같은 설정으로 이용했습니다.

셋업이 종료되면 다시 한번 hermes

라고 명령어를 입력함으로써 Hermes Agent가 기동되어 대화를 할 수 있게 됩니다. 이번 대화에서는 경량 모델인 gemma-4-E4B-it를 사용했습니다. 하지만 기본 설정으로는 답변이 영어로 되어 있어 대화하기가 불편했기 때문에, 「앞으로의 답변을 일본어로 하도록 설정을 저장해 줘」라고 Hermes Agent에게 부탁했습니다.

그러자 Hermes Agent는 preparing memory...

라며 자율적으로 도구를 호출하여, 답변을 일본어로 수행한다는 설정을 저장해 주었습니다.

구체적으로는 다음과 같은 파일이 업데이트되었습니다.

경로:
~/.hermes/memories/USER.md
기록된 내용:
User prefers all responses to be in Japanese.

이것이 처음에 언급한 Hermes Agent가 수행하는 「자기 개선 (Self-improvement)」 중 하나입니다. Hermes Agent에는 「USER.md」 와 「MEMORY.md」 라는 두 가지 영속 메모리 (Persistent Memory)가 존재합니다.

USER.md: 사용자의 선호도나 규칙 (이번 일본어 설정 등)
MEMORY.md: 프로젝트의 환경이나 규약 등

이 시스템의 특징으로서, 무제한으로 기억을 늘리는 것이 아니라 글자 수 제한이 설정되어 있습니다. 기억 영역이 상한에 도달하면, 자동으로 오래된 정보를 요약·통합하여 중요한 정보만을 남겨줍니다.

다음으로 테스트로서, GitHub에 공개되어 있는 TypeScript의 타입 퍼즐인 「Type Challenges」 를 풀게 해 보았습니다. Type Challenges는 TypeScript의 타입 시스템 (Type System) 사양을 활용하여, 테스트 케이스를 만족하는 복잡한 「타입 (Type)」 을 구축해 나가는 프로젝트입니다. 난이도는 초보자부터 상급자까지를 대상으로 한 「Warm-up」, 「Easy」, 「Medium」, 「Hard」, 「Extreme」의 5가지 난이도가 설정되어 있습니다.

이를 AI 에이전트에게 풀게 하려면, 코드 보완 능력뿐만 아니라 에러 메시지로부터 에러의 원인을 특정하고, 자율적으로 수정을 반복하는 루프 (Loop) 가 필수적입니다.

이 테스트에서는 고도의 논리적 사고가 필요하기 때문에, 추론 능력에 뛰어난 gemma-4-26B-A4B-it 를 사용했습니다. 로컬에서 동작하는 LLM이 자율적으로 어디까지 이 문제를 풀 수 있는지, Hermes Agent에게 「문제를 풀어줘」라고 지시를 내렸습니다.

그 결과, Warm-up / Easy / Medium과 같은 쉬운 문제는 자율적으로 풀 수 있었습니다. 하지만 Hard 이상의 문제에서는 복잡한 제약을 다 처리하지 못하고, 타입 에러 (Type Error) 의 무한 루프에 빠지고 말았습니다.

이 테스트를 종료한 후, Hermes Agent는 자율적으로 ~/.hermes/skills/software-development/type-challenges-pick-implementation/SKILL.md 라는 파일을 생성하고 있었습니다. 이 파일에는 Type Challenges를 풀기 위한 방법이 정의되어 있으며, 다음에 유사한 태스크를 수행할 때 Hermes Agent는 이 SKILL.md 를 읽어 들여 최적화된 처리를 수행할 수 있습니다. 이것 또한 Hermes Agent가 수행하는 「자기 개선 (Self-improvement)」 중 하나입니다.

이번에는 Hermes Agent를 로컬 환경에서 구축하고, Type Challenges라는 테스트를 수행했습니다. 이번 환경에서는 Hard 이상의 난이도 문제를 풀 수는 없었지만, 모델 선정이나 설정을 변경하여 더욱 최적화한다면 풀 수도 있을지 모릅니다.

여러분도 꼭 「Hermes Agent」를 도입하여 「자신만의 성장하는 AI 에이전트」를 만들어 보세요.

자기 개선하는 AI 에이전트 「Hermes Agent」를 로컬 환경에서 검증해 보았다

요약

핵심 포인트

댓글