arXiv논문2026. 04. 27. 19:19

AgentSearchBench: 실전 환경에서의 AI 에이전트 검색을 위한 벤치마크

요약

AI 에이전트 생태계가 성장함에 따라, 주어진 작업에 가장 적합한 에이전트를 식별하는 것이 중요한 과제가 되었습니다. 기존 벤치마크들이 제한적인 시나리오를 가정했던 한계를 극복하기 위해, 본 논문은 약 10,000개의 실제 에이전트를 기반으로 하는 대규모 벤치마크인 AgentSearchBench를 소개합니다. 이 벤치마크는 실행 가능한 작업 쿼리와 고수준 설명 모두에서 에이전트 검색 및 재순위화 문제를 다루며, 특히 실행 기반 성능 신호를 활용하여 관련성을 평가함으로써 기존 방법론의 한계를 입증하고 실행 인식 프로빙의 중요성을 강조합니다.

핵심 포인트

AI 에이전트 검색은 단순한 텍스트 매칭을 넘어선 복잡한 문제입니다. 에이전트 기능은 구성적이고 실행에 의존적이어서 설명만으로는 평가가 어렵습니다.
AgentSearchBench는 약 10,000개의 실제 에이전트를 포함하는 대규모 벤치마크로, 현실적인 에이전트 검색 시나리오를 제공합니다.
본 벤치마크는 실행 가능한 작업 쿼리와 고수준 설명 모두에서 에이전트 검색 및 재순위화 문제를 공식화하고 평가합니다.
실험 결과는 의미적 유사성만으로는 충분하지 않으며, 실제 에이전트의 성능(실행 기반 신호)을 통합하는 것이 순위 품질 향상에 결정적임을 보여줍니다.

AI 에이전트 생태계의 급속한 성장은 복잡한 작업의 위임 및 실행 방식을 변화시키며, 주어진 작업에 적합한 에이전트를 식별하는 새로운 도전을 만들어냈다. 기존 도구들과 달리 에이전트의 기능은 종종 구성적이며 실행에 의존적이어서 텍스트 설명만으로 평가하기 어렵다. 그러나 기존 연구와 벤치마크들은 일반적으로 명확히 정의된 기능, 통제된 후보 풀, 또는 실행 가능한 작업 쿼리만을 가정하여 현실적인 에이전트 검색 시나리오가 충분히 연구되지 않은 채로 남아있다. 우리는 여러 제공자로부터 거의 10,000 개의 실제 세계 에이전트를 기반으로 구축한 대규모 벤치마크인 AgentSearchBench 를 소개한다. 이 벤치마크는 실행 가능한 작업 쿼리와 고수준 작업 설명 모두 하에서 에이전트 검색을 검색 및 재순위화 문제로 공식화하며, 실행 기반 성능 신호를 사용하여 관련성을 평가한다. 실험 결과는 의미적 유사성과 실제 에이전트 성능 사이에 일관된 격차를 보여주어, 설명 기반의 검색 및 재순위화 방법의 한계를 드러낸다. 우리는 또한 실행 인식 프로빙 (execution-aware probing) 을 포함한 경량 행동 신호가 순위 품질을 크게 향상시킬 수 있음을 보여줌으로써, 에이전트 발견에 실행 신호를 통합하는 것이 중요함을 강조한다. 우리의 코드는 https://github.com/Bingo-W/AgentSearchBench 에서 이용 가능하다.

AI 자동 생성 콘텐츠

원문 바로가기

AgentSearchBench: 실전 환경에서의 AI 에이전트 검색을 위한 벤치마크

요약

핵심 포인트

댓글