Grep만 있으면 충분할까? Agent Harness가 Agentic Search를 어떻게 재편하는가

최근 Large Language Model (LLM) 에이전트의 발전은 모델이 사용자를 대신하여 작업을 완료하기 위해 자율적으로 정보를 검색하고, 도구(tool)를 호출하며, 대규모 코퍼스(corpora)에 대해 추론하는 복잡한 에이전트 워크플로우 (agentic workflows)를 가능하게 했습니다. 에이전트 검색 시스템에서 검색 증강 생성 (RAG)의 채택이 증가하고 있음에도 불구하고, 기존 문헌에는 검색 전략의 선택이 에이전트 아키텍처 및 도구 호출 (tool-calling) 패러다임과 어떻게 상호작용하는지에 대한 체계적인 비교가 부족합니다. 도구 출력이 모델에 제시되는 방식과 검색이 더 많은 무관한 주변 텍스트를 처리해야 할 때 성능이 어떻게 변하는지를 포함한 중요한 실무적 차원들은 에이전트 루프 (agent loops) 내에서 여전히 충분히 탐구되지 않은 상태로 남아 있습니다. 본 논문은 두 가지 실험으로 구성된 실증적 연구를 보고합니다. 실험 1에서는 커스텀 에이전트 하네스 (Chronos)와 제공자 네이티브 CLI 하네스 (Claude Code, Codex, Gemini CLI)를 사용하여, LongMemEval의 116개 질문 샘플에 대해 grep과 벡터 검색 (vector retrieval)을 비교합니다. 이는 모델이 인라인(inline)으로 도구 결과를 받는 경우와 모델이 별도로 읽는 파일 기반 도구 결과를 사용하는 경우 모두를 포함합니다. 실험 2에서는 grep 전용 검색과 벡터 전용 검색을 비교하며, 점진적으로 추가적인 무관한 대화 이력을 혼합하여 각 쿼리가 중요한 구절과 함께 더 많은 방해 물질 속에 포함되도록 합니다. Chronos와 제공자 CLI 전반에 걸쳐, 실험 1의 비교 결과 grep이 일반적으로 벡터 검색보다 더 높은 정확도를 나타냈습니다. 동시에, 기반이 되는 대화 데이터가 동일하더라도 전체 점수는 여전히 어떤 하네스와 도구 호출 스타일이 사용되는지에 따라 크게 좌우됩니다.

Insights

Grep만 있으면 충분할까? Agent Harness가 Agentic Search를 어떻게 재편하는가

요약

핵심 포인트

댓글

AI 엔지니어를 위한 10가지 에이전트 평가(Evals) 방법

Truss: 새로운 단일 사용자 로컬 하네스 (local harness)

Nike, 내년 1월부터 중국 내 온라인 도매 판매 제한 예정 – 보고서

오늘 Supermicro 주가가 급등하는 이유

AI 엔지니어를 위한 10가지 에이전트 평가(Evals) 방법

Truss: 새로운 단일 사용자 로컬 하네스 (local harness)

Nike, 내년 1월부터 중국 내 온라인 도매 판매 제한 예정 – 보고서

오늘 Supermicro 주가가 급등하는 이유