본문으로 건너뛰기

© 2026 Molayo

GH Trending릴리즈2026. 05. 08. 05:22

VectifyAI/PageIndex

요약

PageIndex는 기존의 벡터 유사성 검색(similarity)에 의존하는 전통적인 RAG 시스템의 한계를 극복하기 위해 설계된 차세대 '벡터리스(vectorless)', 추론 기반 RAG 프레임워크입니다. 이 시스템은 긴 전문 문서에서 계층적 트리 인덱스를 구축하고, LLM이 이 구조를 따라 인간 전문가처럼 논리적으로 추론하며 검색을 수행합니다. 이를 통해 단순한 유사성 매칭을 넘어선 '관련성(relevance)' 기반의 정확하고 해석 가능한 지식 추출이 가능하여 전문 문서 분석 분야에서 높은 성능을 입증했습니다.

핵심 포인트

  • **벡터리스 RAG (Vectorless RAG):** 벡터 임베딩과 유사성 검색 대신, 문서 구조와 LLM의 추론 능력을 활용하여 정보를 검색합니다.
  • **계층적 트리 인덱싱:** 긴 문서를 페이지 및 섹션 단위로 계층화된 트리를 구축하여 대용량 전문 문서에서도 정확한 탐색이 가능하게 합니다.
  • **추론 기반 검색 (Reasoning-based Retrieval):** LLM이 '목차 생성'과 같은 추론 과정을 거쳐 필요한 정보를 찾아내므로, 단순 유사성 매칭보다 훨씬 높은 관련성을 제공합니다.
  • **향상된 투명성과 해석 가능성:** 검색 과정이 페이지 및 섹션 참조를 통해 추적 가능하고 이해하기 쉬우며, '블랙박스' 방식의 근사 벡터 검색을 피할 수 있습니다.
  • **전문 문서 최적화:** 금융(FinanceBench) 등 전문 지식이 필요한 복잡한 문서를 분석하는 데 특화되어 있으며, 높은 정확도를 보여줍니다.
  • 🔥
    Agentic Vectorless RAG— OpenAI Agents SDK 를 사용한 단순한agentic, vectorless RAG예제와 자체 호스팅 PageIndex.
    Millions of Documents Scale PageIndexPageIndex File System은 전체 코퍼스를 단일 문서에 국한하지 않고 PageIndex 가 추론할 수 있도록 파일 수준의 트리 레이어를 제공하여 대용량 문서 검색을 가능하게 합니다.- PageIndex Chat — 전문 긴 문서를 위한 인간 같은 문서 분석 에이전트 플랫폼. MCP 또는 API 를 통해 제공.
  • PageIndex Framework — LLM 이 긴 문서에 대해reasoning-based, context-aware retrieval를 수행할 수 있도록 하는 agentic, in-context tree index인 PageIndex 에 대한 심층 탐구.

긴 전문 문서의 벡터 데이터베이스 검색 정확도에 지쳐 계신가요? 전통적인 벡터 기반 RAG 는 의미적 similarity 를 기반으로 하지만 진정한 relevance 를 제공하지 않습니다. 그러나 similarity ≠ relevance — 검색에 필요한 것은 relevance이며, 이는 reasoning 을 필요로 합니다. 전문 지식과 다단계 추론이 요구되는 전문 문서를 작업할 때 유사성 검색은 종종 부족합니다.

AlphaGo 에 영감을 받아 우리는 PageIndex을 제안합니다 — 긴 문서에서 계층적 트리 인덱스를 구축하고 LLM 이 해당 인덱스에 대해reason하여 agentic, context-aware retrieval를 수행하는 vectorless, reasoning-based RAG 시스템입니다.
이것은 human experts 가 복잡한 문서를 탐색하고 지식을 추출하는 방식을 모방하여 LLM 이 가장 관련성 높은 문서 섹션으로 추론할 수 있도록 합니다. PageIndex 는 두 단계로 검색을 수행합니다:

  • Generate a "Table-of-Contents"
    tree structure indexof documents - Perform reasoning-based retrieval through
    tree search

전통적인 벡터 기반 RAG 와 비교하여 PageIndex는 다음과 같은 특징을 가집니다:

No Vector DB: 문서 구조와 LLM 추론을 사용하여 검색하며, 벡터 유사성 검색 대신 사용합니다.No Chunking: 문서는 인공 chunk 가 아닌 자연스러운 섹션으로 조직됩니다.Better Explainability and Traceability: 검색은 추론에 기반하며, 페이지 및 섹션 참조가 있는 추적 가능하고 해석 가능한 방식으로 수행됩니다. 더 이상 불투명한 근사 벡터 검색("vibe retrieval")이 없습니다.Context-Aware Retrieval: 검색은 전체 컨텍스트 (예: 대화 기록과 도메인 지식) 에 의존하며, 새로운 컨텍스트를 쉽게 통합합니다.Human-like Retrieval: 인간 전문가가 복잡한 문서를 탐색하고 지식을 추출하는 방식을 모방합니다.

PageIndex 는 FinanceBench 에서 state-of-the-art 98.7% 정확도를 달성한 추론 기반 RAG 시스템을 제공하여 전문 문서 분석에서 벡터 기반 RAG 솔루션에 비해 우월한 성능을 입증했습니다. 자세한 내용은 블로그 포스트를 확인하세요.

더 많은 정보는 PageIndex 프레임워크의 상세 소개를 참조하세요. 오픈소스 코드는 GitHub 저장소를 확인하고, 사용 가이드 및 예제는 cookbook, 튜토리얼, 블로그를 확인하세요.
The PageIndex 서비스는 ChatGPT 스타일 채팅 플랫폼으로 제공되거나 MCP 또는 API 를 통해 통합할 수 있습니다.

  • Self-host — 표준 PDF 파싱을 사용하여 로컬에서 실행 (오픈소스 저장소 사용).

  • Cloud Service — 최적의 결과를 위한 향상된 OCR, 트리 구축 및 검색이 포함된 프로덕션급 파이프라인. Chat Platform 을 통해 즉시 시도하거나 MCP 또는 API 를 통해 통합하세요.
    Enterprise— 사내 또는 온프레미스 배포. 자세한 내용은 문의하거나 데모 예약하세요.

  • 🔥
    Agentic Vectorless RAG(latest) — OpenAI Agents SDK 를 사용한 단순하지만 완전한 agentic vectorless RAG 예제 (self-hosted PageIndex). - Vectorless RAG notebook 을 확인하세요. PageIndex 를 사용하는 reasoning-based RAG 의 minimal, hands-on 예제입니다. - Vision-based Vectorless RAG 를 확인하세요. OCR 없이, page images 를 직접 처리하는 minimal, vision-based & reasoning-native RAG 파이프라인입니다.

PageIndex 는 긴 PDF 문서들을 LLMs (Large Language Models) 와 함께 사용할 때 최적화된 *

  • 📝 Blog: 기술적 글, 연구 인사이트 및 제품 업데이트.
  • 🔧 Developer: MCP 설정, API 문서 및 통합 가이드.
  • 🧪 Cookbooks: 실전 실행 가능한 예제와 고급 사용 사례.
  • 📖 Tutorials: 실제 가이드 및 전략을 포함하며
    *문서 검색 (Document Search)*과 트리 검색 (Tree Search).

우리의 프로젝트가 마음에 드시다면 별표를 남겨주세요 🌟. 감사합니다!

이 작업을 인용해 주세요:

Mingtian Zhang, Yu Tang and PageIndex Team,
"PageIndex: Next-Generation Vectorless, Reasoning-based RAG",
PageIndex Blog, Sep 2025.

또는 BibTeX 인용을 사용하세요.

@article{zhang2025pageindex,
author = {Mingtian Zhang and Yu Tang and PageIndex Team},
title = {PageIndex: Next-Generation Vectorless, Reasoning-based RAG},
...

© 2026 Vectify AI

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub Trending All (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0