Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval
요약
본 기사는 기존의 정보 검색 에이전트가 가진 한계점, 즉 반복적이고 탐험적인 검색 과정으로 인해 발생하는 지연 시간 및 낮은 회수율 문제를 해결하기 위해 'SuperIntelligent Retrieval Agent (SIRA)'를 제안합니다. SIRA는 다중 라운드의 복잡한 탐색 과정을 단일의 정교하게 구성된(corpus-discriminative) 검색 액션으로 압축하는 것이 핵심입니다. 이를 위해 LLM이 문서와 쿼리 양쪽에서 누락되거나 중요한 증거 어휘를 예측하고, 통계적 필터링을 거쳐 최적화된 단일 가중치 BM25 호출을 수행합니다. 실험 결과, SIRA는 기존의 밀도 기반 리트리버 및 다중 라운드 에이전트 베이스라인보다 우수한 성능을 보여주었습니다.
핵심 포인트
- SIRA는 복잡한 다중 라운드 검색 과정을 단일의 'corpus-discriminative' 검색 액션으로 압축하여 효율성을 극대화합니다.
- LLM은 문서(corpus)와 쿼리 양쪽에서 누락되거나 중요한 증거 어휘를 예측하는 데 사용됩니다.
- 문서 빈도 통계는 제안된 용어가 적절한 '검색 마진'을 가질 수 있도록 필터링 역할을 수행합니다.
- SIRA는 기존의 밀도 기반 리트리버나 다중 라운드 에이전트보다 성능이 우수하며, 해석 가능하고 효율적인 단일 쿼리로 높은 성능을 달성함을 입증했습니다.
Retrieval-augmented agents 는 점점 더 큰 조직 지식베이스의 인터페이스로 자리 잡고 있지만, 대부분 여전히 검색을 블랙 박스로 취급합니다. 그들은 탐험적 쿼리를 발행하고 반환된 스니펫을 검사한 후 유용한 증거가 등장할 때까지 반복적으로 재형성합니다. 이 접근법은 전문가가 용어와 예상 가능한 증거에 대한 강한 사전 지식을 바탕으로 이를 탐색하는 방식이 아니라, 초보자가 낯선 데이터베이스를 검색하는 방식과 유사하며, 불필요한 검색 라운드, 증가된 지연 시간, 그리고 낮은 회수를 초래합니다. 우리는 ‘SuperIntelligent Retrieval Agent’ (SIRA) 를 소개합니다. SIRA 는 검색에서 ‘초지능’을 다중 라운드의 탐험적 검색을 단일 corpus-discriminative retrieval action 으로 압축하는 능력으로 정의합니다. SIRA 는 단순히 쿼리에 관련 용어가 무엇인지 묻는 것을 넘어, 원하는 증거를 corpus-level confusers 에서 분리할 가능성이 높은 용어를 묻습니다. corpus 측에서는 LLM 이 각 문서를 오프라인에서 누락된 검색 어휘로 풍부하게 하고, query 측에서는 쿼리에서 누락된 증거 어휘를 예측하며, 문서 빈도 통계는 제안된 용어가 부재하거나 과도하게 흔하거나 검색 마진을 생성할 가능성이 낮은 경우를 필터링하는 도구 호출로 사용됩니다. 최종 검색 단계는 원래 쿼리와 검증된 확장을 결합한 단일 가중치 BM25 호출입니다. 10 개의 BEIR 벤치마크와 downstream question-answering 작업을 통해 SIRA 는 밀도 기반 리트리버와 최첨단 다중 라운드 에이전트 베이스라인을 능가하는 유의미하게 우수한 성능을 달성하며, LLM 인지력과 경량 corpus 통계에 의해 안내된 하나의 잘 형성된 어휘 쿼리가 훈련 없이 해석 가능하고 효율적으로 유지되는 동시에 훨씬 더 비싼 다중 라운드 검색을 초과할 수 있음을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기