Hermes Agent에게 5가지 불가능한 과제를 부여해 보았다

나는 Nous Research의 오픈 소스(open-source) Hermes Agent 프레임워크가 자율적이고 스스로 개선되는 GEPA 메모리 루프(memory loop)를 얼마나 잘 견디는지 스트레스 테스트하기 위해 다섯 가지 가혹한 개발 워크로드(workloads)를 수행했습니다. 로컬 VPS에서 지속적으로 실행된 이 에이전트는 복잡한 아키텍처 추론(architectural reasoning)과 자동화된 다단계 워크플로(multi-step workflows)를 성공적으로 처리했습니다. 하지만 GitHub 토큰의 무음 실패(silent failures)와 일반적이고 얕은 코드 분석을 포함하여, 실제 운영 환경에서의 심각한 격차(production gaps)도 드러냈습니다.