arXiv논문2026. 05. 04. 20:20

Cross-Document Retrieval-Augmented Generation을 위한 계층적 추상 트리: Ψ-RAG

요약

Ψ-RAG는 기존 Tree-RAG의 한계점인 크로스-문서 멀티홉 질문 처리 능력 부족을 해결하기 위해 제안된 새로운 검색 증강 생성(RAG) 프레임워크입니다. 이 시스템은 데이터 분포에 적응하는 반복적인 '병합 및 축소' 과정을 거쳐 구축된 계층적 추상 트리 인덱스를 사용합니다. 또한, 재구성된 쿼리와 에이전트 기반 하이브리드 검색기를 결합하여 지식 베이스와 상호작용하며, 토큰 수준 QA부터 문서 요약까지 다양한 작업을 지원하는 다중 입자(multi-granularity) 검색 에이전트를 구현했습니다.

핵심 포인트

Ψ-RAG는 기존 Tree-RAG가 가진 크로스-문서 멀티홉 질문 처리의 어려움(분포 적응성 부족, 구조적 격리 등)을 해결합니다.
핵심 구성 요소는 데이터 분포에 적응하는 '병합 및 축소' 과정을 거친 계층적 추상 트리 인덱스입니다.
다중 입자 검색 에이전트는 재구성된 쿼리와 하이브리드 검색기를 사용하여 지식 베이스와 지능적으로 상호작용합니다.
실험 결과, 크로스-문서 멀티홉 QA 벤치마크에서 기존 SOTA 모델 대비 높은 성능 향상을 입증했습니다.

Retrieval-augmented generation (RAG)은 외부 지식을 통해 대형 언어 모델에 지식을 보강하고, tree-based RAG는 문서를 계층 인덱스로 조직하여 다중粒度의 쿼리를 지원합니다. 그러나 단일 문서 검색을 위한 기존 Tree-RAG 방법은 크로스-문서 멀티홉 질문에 확장하는 데 심각한 도전 과제를 직면했습니다: (1) 분포 적응성 부족, k-means 클러스터링이 경직된 분포 가정으로 인해 노이즈를 유발; (2) 구조적 격리, 트리 인덱스가 명시적인 크로스-문서 연결을 결여; 그리고 (3) 거친 추상화, 세부 사항을 가림. 이러한 한계를 해결하기 위해 우리는 Ψ-RAG를 제안했습니다. 이는 사전 가정 없이 데이터 분포에 적응하는 반복적인 '병합 및 축소' 과정을 통해 구축된 계층적 추상 트리 인덱스와 재구성된 쿼리와 에이전트 기반 하이브리드 검색기를 통해 지식 베이스와 지능적으로 상호작용하는 다중粒度 검색 에이전트로 구성됩니다. Ψ-RAG는 토큰 수준의 질문 답변부터 문서 수준 요약까지 다양한 작업을 지원합니다. 크로스-문서 멀티홉 QA 벤치마크에서, 평균 F1 점수에서 RAPTOR보다 25.9%, HippoRAG 2 보다 7.4% 더 높은 성능을 보입니다. 코드는 https://github.com/Newiz430/Psi-RAG 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Cross-Document Retrieval-Augmented Generation을 위한 계층적 추상 트리: Ψ-RAG

요약

핵심 포인트

댓글