HN분석2026. 06. 10. 06:36

Grep이 전부일까요? 에이전트 하네스가 에이전틱 검색을 어떻게 변화시키는지

요약

본 논문은 LLM 에이전트의 발전과 RAG 시스템의 증가에도 불구하고, 검색 전략 선택이 에이전트 아키텍처 및 도구 호출 패러다임과 상호작용하는 방식에 대한 체계적인 비교가 부족함을 지적합니다. 연구진은 사용자 정의 하네스(Chronos)와 주요 제공업체 CLI를 사용하여 grep과 벡터 검색을 비교하고, 방해되는 자료가 추가될 때의 성능 변화를 분석했습니다.

핵심 포인트

사용자 정의 에이전트 하네스와 제공업체 CLI 간에 성능 차이가 존재함.
실험 1에서 grep은 일반적으로 벡터 검색보다 높은 정확도를 보임.
도구 호출 스타일과 사용되는 하네스에 따라 전체 점수가 크게 의존함을 확인.
검색 전략 선택의 실질적인 비교 연구가 필요함.

컴퓨터 과학 > 계산 및 언어

제목: Grep이 전부일까요? 에이전트 하네스가 에이전틱 검색을 어떻게 변화시키는지

초록:
최근 Large Language Model (LLM) 에이전트의 발전은 모델이 사용자 대신 작업을 완료하기 위해 정보를 자율적으로 검색하고, 도구를 호출하며, 대규모 코퍼스에 대해 추론할 수 있는 복잡한 에이전틱 워크플로우를 가능하게 했습니다. 에이전틱 검색 시스템에서 검색 증강 생성(RAG)의 채택이 증가함에도 불구하고, 기존 문헌에는 검색 전략 선택이 에이전트 아키텍처 및 도구 호출 패러다임과 어떻게 상호 작용하는지에 대한 체계적인 비교가 부족합니다. 특히, 도구 출력이 모델에 제시되는 방식이나 검색이 더 많은 관련 없는 주변 텍스트를 처리해야 할 때 성능이 어떻게 변하는지 등 중요한 실질적 차원들은 에이전트 루프에서 여전히 탐구되지 않은 상태입니다. 본 논문은 두 가지 실험으로 구성된 경험적 연구 결과를 보고합니다. 실험 1에서는 사용자 정의 에이전트 하네스(Chronos)와 제공업체 네이티브 CLI 하네스(Claude Code, Codex, Gemini CLI)를 사용하여 LongMemEval의 116개 질문 샘플에 대해 grep과 벡터 검색을 비교했습니다. 이 비교는 인라인 도구 결과와 모델이 별도로 읽는 파일 기반 도구 결과를 모두 포함합니다. 실험 2에서는 추가적인 관련 없는 대화 기록을 점진적으로 혼합하여, 각 질의가 중요한 구절들과 함께 더 많은 방해되는 자료 속에 임베딩되도록 하면서 grep 전용 검색과 벡터 전용 검색을 비교했습니다. Chronos와 제공업체 CLI 전반에 걸쳐, 실험 1에서 grep은 일반적으로 벡터 검색보다 높은 정확도를 보였습니다. 동시에, 근본적인 대화 데이터가 동일하더라도 어떤 하네스와 도구 호출 스타일이 사용되는지에 따라 전체 점수가 여전히 강하게 의존함을 알 수 있었습니다.

참고 문헌 및 인용 도구

이 논문과 관련된 코드, 데이터 및 미디어

데모

arXivLabs: 커뮤니티 협력자가 참여하는 실험적 프로젝트

arXivLabs는 협력자들이 저희 웹사이트에서 새로운 arXiv 기능을 개발하고 공유할 수 있도록 하는 프레임워크입니다.

arXivLabs를 활용하는 개인과 조직 모두 개방성(openness), 커뮤니티(community), 탁월함(excellence), 그리고 사용자 데이터 프라이버시라는 우리의 가치를 받아들이고 수용했습니다. arXiv는 이러한 가치에 전념하며, 이를 준수하는 파트너와만 협력합니다.

arXiv 커뮤니티에 가치를 더할 프로젝트 아이디어가 있으신가요? arXivLabs에 대해 더 알아보기.

AI 자동 생성 콘텐츠

원문 바로가기