Grep만 있으면 충분할까? Agent Harness가 Agentic Search를 어떻게 재편하는가
요약
본 논문은 LLM 에이전트 워크플로우에서 검색 전략(grep vs. 벡터 검색)의 선택이 에이전트 아키텍처 및 도구 호출 방식과 어떻게 상호작용하는지 실증적으로 분석합니다. 실험 1에서는 커스텀 하네스와 제공자 CLI를 사용하여 grep과 벡터 검색을 비교했으며, 모델이 인라인 또는 파일 기반으로 도구 결과를 받는 경우 모두에서 grep이 일반적으로 더 높은 정확도를 보였습니다. 또한, 전체 성능은 사용되는 에이전트 하네스와 도구 호출 스타일에 크게 의존함을 보여줍니다.
핵심 포인트
- LLM 에이전트 워크플로우의 복잡성 증가로 인해 검색 전략과 아키텍처 간의 상호작용 분석이 중요해지고 있습니다.
- 실험 결과, LLM 에이전트 환경에서 grep 방식이 벡터 검색보다 일반적으로 더 높은 정확도를 보였습니다.
- 에이전트의 최종 성능은 사용되는 특정 하네스(Chronos 등)와 도구 호출 스타일(인라인 vs. 파일 기반)에 크게 좌우됩니다.
최근 Large Language Model (LLM) 에이전트의 발전은 모델이 사용자를 대신하여 작업을 완료하기 위해 자율적으로 정보를 검색하고, 도구(tool)를 호출하며, 대규모 코퍼스(corpora)에 대해 추론하는 복잡한 에이전트 워크플로우 (agentic workflows)를 가능하게 했습니다. 에이전트 검색 시스템에서 검색 증강 생성 (RAG)의 채택이 증가하고 있음에도 불구하고, 기존 문헌에는 검색 전략의 선택이 에이전트 아키텍처 및 도구 호출 (tool-calling) 패러다임과 어떻게 상호작용하는지에 대한 체계적인 비교가 부족합니다. 도구 출력이 모델에 제시되는 방식과 검색이 더 많은 무관한 주변 텍스트를 처리해야 할 때 성능이 어떻게 변하는지를 포함한 중요한 실무적 차원들은 에이전트 루프 (agent loops) 내에서 여전히 충분히 탐구되지 않은 상태로 남아 있습니다. 본 논문은 두 가지 실험으로 구성된 실증적 연구를 보고합니다. 실험 1에서는 커스텀 에이전트 하네스 (Chronos)와 제공자 네이티브 CLI 하네스 (Claude Code, Codex, Gemini CLI)를 사용하여, LongMemEval의 116개 질문 샘플에 대해 grep과 벡터 검색 (vector retrieval)을 비교합니다. 이는 모델이 인라인(inline)으로 도구 결과를 받는 경우와 모델이 별도로 읽는 파일 기반 도구 결과를 사용하는 경우 모두를 포함합니다. 실험 2에서는 grep 전용 검색과 벡터 전용 검색을 비교하며, 점진적으로 추가적인 무관한 대화 이력을 혼합하여 각 쿼리가 중요한 구절과 함께 더 많은 방해 물질 속에 포함되도록 합니다. Chronos와 제공자 CLI 전반에 걸쳐, 실험 1의 비교 결과 grep이 일반적으로 벡터 검색보다 더 높은 정확도를 나타냈습니다. 동시에, 기반이 되는 대화 데이터가 동일하더라도 전체 점수는 여전히 어떤 하네스와 도구 호출 스타일이 사용되는지에 따라 크게 좌우됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기