arXiv논문2026. 05. 12. 18:36

Pi-Serini을 이용한 에이전트 검색 재고찰: 어휘적 검색만으로 충분할까?

요약

본 논문은 LLM 기반 에이전트 시스템에서 어휘적 검색(BM25)의 충분성을 재검토하며, 'Pi-Serini'라는 검색 에이전트를 소개합니다. 이 에이전트는 문서 검색, 탐색, 읽기 기능을 갖추고 있으며, 최신 LLM과 결합하여 심층 연구를 지원하는 데 효과적임을 입증했습니다. 실험 결과, Pi-Serini는 GPT-5.5와 함께 사용되어 높은 답변 정확도(83.1%)와 표면화 증거 회수율(94.7%)을 달성하며 기존의 밀집 리트리버 기반 시스템보다 우수한 성능을 보였습니다.

핵심 포인트

Pi-Serini는 검색, 탐색, 읽기 기능을 통합한 다중 도구 검색 에이전트를 제공합니다.
BM25와 같은 어휘적 리트리버가 최신 LLM과 결합될 경우, 심층 연구를 위한 충분한 검색 깊이를 확보할 수 있습니다.
Pi-Serini는 GPT-5.5와의 조합을 통해 높은 답변 정확도(83.1%)와 표면화 증거 회수율(94.7%)을 달성하며 기존 시스템의 성능을 능가합니다.
BM25 튜닝과 검색 깊이 증가가 각각 답변 정확도 및 증거 회수율에 유의미한 성능 향상을 가져옴을 입증했습니다.

대규모 언어 모델(LLMs)이 에이전트 루프에서 더 능숙해짐에 따라, 어휘적 리트리버가 충분할까요? 이 질문은 심층 연구 시스템을 구축할 때 자연스럽게 발생합니다. 우리는 BM25를 추론 및 도구 사용 능력이 뛰어난 최첨단 LLMs와 결합하여 이를 재검토합니다. 같은 질문을 하는 연구자들을 지원하기 위해, 문서를 검색(retrieving), 탐색(browsing), 읽기(reading) 위한 세 가지 도구를 갖춘 검색 에이전트 Pi-Serini를 소개합니다. 우리의 결과는 BrowseComp-Plus에서 충분한 검색 깊이를 가진 잘 구성된 어휘적 리트리버가 더 능숙한 LLMs와 결합될 때 효과적인 심층 연구를 지원할 수 있음을 보여줍니다. 구체적으로, gpt-5.5와 함께 사용된 Pi-Serini는 83.1%의 답변 정확도(answer accuracy)와 94.7%의 표면화 증거 회수율(surfaced evidence recall)을 달성하여, 밀집 리트리버(dense retrievers)를 사용하는 공개 검색 에이전트를 능가합니다. 통제된 제거 실험(Controlled ablations)은 또한 BM25 튜닝이 기본 BM25 설정 대비 답변 정확도를 18.0% 향상시키고 표면화 증거 회수율을 11.1% 향상시키는 동시에, 검색 깊이를 늘리는 것이 얕은 검색 설정 대비 표면화 증거 회수율을 25.3% 추가로 개선함을 보여줍니다. 소스 코드는 https://github.com/justram/pi-serini에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Pi-Serini을 이용한 에이전트 검색 재고찰: 어휘적 검색만으로 충분할까?

요약

핵심 포인트

댓글