워크플로 유도를 통한 다회차 에이전트 기반 과학 문헌 검색
요약
PaperPilot은 과학 문헌 검색을 위해 실행 가능한 DAG 형태의 워크플로를 구축하는 다회차 에이전트 시스템입니다. 사용자 피드백을 통해 쿼리와 워크플로를 동시에 개선하며, 기존 에이전트 대비 검색 성능과 실행 정확도를 크게 향상시켰습니다.
핵심 포인트
- 워크플로 유도 방식을 통해 검색 과정을 DAG 형태로 구조화
- 사용자 피드백을 활용한 쿼리 및 워크플로 최적화
- PaperPilot-9B 모델을 통해 검색 지표(Hit@5, MRR 등) 대폭 개선
- 워크플로 실행 오류를 9.5%에서 0%로 감소시켜 제어 가능성 확보
과학 문헌 검색은 종종 단일 쿼리로부터 논문을 검색하는 것 이상의 작업이 필요합니다. 사용자의 의도는 불충분하게 명시되어 있고, 선호도에 따라 달라지며, 상호작용을 통해 진화하기 때문입니다. 기존의 검색 에이전트들은 일반적으로 고정된 파이프라인(fixed pipelines)이나 암묵적인 언어 전용 추론(implicit language-only reasoning)에 의존하며, 이로 인해 검색 전략을 제어, 검사 및 개선하기가 어렵습니다. 우리는 과학적 검색을 워크플로 유도(workflow induction)로 프레임화하는 다회차 문헌 검색 에이전트인 PaperPilot을 소개합니다. 앵커 논문(anchor paper)과 사용자 쿼리가 주어지면, PaperPilot은 키워드 검색, 인용 확장(citation expansion), 필터링, 점수 산정(scoring), 재순위화(reranking), 증거 추출(evidence extraction)을 포함하는 실행 가능한 DAG(Directed Acyclic Graph, 유향 비순환 그래프) 형태의 논문 검색 연산자들을 구축합니다. 이후 사용자 피드백은 쿼리와 워크플로 자체를 모두 개선하는 데 사용됩니다. 우리는 지도 워크플로 모방(supervised workflow imitation)과 제어된 워크플로 손상(controlled workflow corruptions)에 대한 선호도 최적화(preference optimization)를 통해 PaperPilot을 학습시켰습니다. 실험 결과, PaperPilot-9B는 다회차 상호작용 환경에서 기본 Qwen3.5-9B 도구 세트 에이전트보다 성능을 향상시켜, Hit@5를 58.0에서 77.0으로, MRR을 47.5에서 59.4로, nDCG@10을 26.8에서 32.5로 높였으며, 워크플로 실행 오류를 9.5%에서 0%로 줄였습니다. 이러한 결과는 명시적이고 편집 가능한 검색 워크플로가 복잡한 과학적 의도에 문헌 검색 에이전트를 정렬시키기 위한 효과적이고 제어 가능한 인터페이스를 제공함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기