arXiv논문2026. 06. 19. 10:44

ScholarQuest: 개방형 문헌 환경에서의 에이전트 기반 학술 논문 검색을 위한 분류 체계 가이드 벤치마크

요약

에이전트 기반 학술 논문 검색을 체계적으로 평가하기 위한 새로운 벤치마크인 ScholarQuest를 제안합니다. 1,000개 이상의 쿼리와 ScholarBase를 통해 에이전트의 검색 성능과 견고성을 다차원적으로 분석합니다.

핵심 포인트

에이전트 기반 검색이 단일 샷 검색보다 우수한 성능을 보임
현존하는 최상위 에이전트도 낮은 Recall 성능을 보여 개선 여지가 큼
방법론 중심, 설정 고정 등 네 가지 연구 의도 기반 쿼리 구성
재현 가능한 평가를 위한 ScholarBase 검색 백엔드 제공

학술 논문 검색은 과학 연구의 핵심 단계이며, LLM (Large Language Model) 기반 검색 에이전트는 반복적이고 의도 중심적인 문헌 탐색을 위한 유망한 패러다임으로 부상하고 있습니다. 그러나 기존의 벤치마크는 실제적인 개방형 문헌 환경에서 에이전트 기반의 학술 검색을 체계적으로 평가하기에는 불충분합니다. 우리는 에이전트 기반 학술 논문 검색을 위한 대규모 분류 체계 가이드 벤치마크인 ScholarQuest를 제안합니다. ScholarQuest는 1,000개 이상의 컴퓨터 과학 주제와 방법론 중심 (method-oriented), 설정 고정 (setting-anchored), 비교 기반 (comparison-based), 범위 제어 (scope-controlled) 쿼리를 포함한 네 가지 대표적인 연구 의도로 구성됩니다. 또한, 재현 가능한 평가를 위해 확장 가능한 답변 구축 방식과 공유 검색 백엔드인 ScholarBase를 제공합니다. 벤치마킹 결과, 에이전트 방식이 단일 샷 검색 (single-shot retrieval) 베이스라인보다 우수한 성능을 보였으나, 가장 성능이 좋은 에이전트조차 Recall@100 0.314, Recall@All 0.355를 달성하는 데 그쳐 상당한 개선 여지가 있음을 나타냈습니다. 또한, 검색 효율성, 의도 수준의 견고성 (robustness), 그리고 실패 사례에 대한 분석은 학술 논문 검색 에이전트에 대해 다차원적인 평가 신호를 제공하는 본 벤치마크의 능력을 더욱 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ScholarQuest: 개방형 문헌 환경에서의 에이전트 기반 학술 논문 검색을 위한 분류 체계 가이드 벤치마크

요약

핵심 포인트

댓글