LLMSearchIndex - RAG 애플리케이션을 위한 2 억 개 이상의 인덱싱 웹 페이지를 갖춘 오픈 소스 로컬 웹 검색 라이브러리
요약
LLMSearchIndex는 로컬 LLM 및 RAG 시스템을 위한 오픈 소스 웹 검색 라이브러리입니다. 이 라이브러리는 FineWeb과 Wikipedia의 방대한 양의 웹 페이지를 포함하는 커스텀 압축 인덱스를 사용하여, 유료 API나 외부 크롤러에 의존하지 않고도 인터넷 규모의 로컬 검색 기능을 제공합니다. 약 2GB 크기의 이 인덱스는 대부분의 하드웨어에서 빠른 속도로 실행되며, RAG 컨텍스트로 결과를 쉽게 가져올 수 있도록 파이썬 인터페이스를 제공합니다.
핵심 포인트
- LLMSearchIndex는 로컬 LLM/RAG 시스템을 위한 대규모 웹 검색 기능을 제공하는 오픈 소스 라이브러리입니다.
- FineWeb과 Wikipedia 데이터를 포함한 커스텀 압축 인덱스를 사용하여, 외부 API나 메타 검색 크롤러 의존성을 제거했습니다.
- 약 2GB의 인덱스는 대부분의 하드웨어에서 빠른 속도로 로컬 실행이 가능합니다.
- 파이썬 라이브러리 인터페이스를 통해 RAG 컨텍스트에 필요한 검색 결과를 쉽게 가져올 수 있습니다.
로컬 LLM/RAG 시스템용 웹 검색 옵션에 대해 다소 불만족스러웠습니다. 대부분의 설정은 Brave 와 같은 유료 API 나 SearXNG 와 같은 메타 검색 크롤러에 의존합니다.
따라서 저는 LLMSearchIndex 를 구축했습니다 - 이는 FineWeb + Wikipedia 의 대부분의 웹 페이지를 포함하는 커스텀 훈련된 압축된 검색 인덱스를 사용하는 로컬 인터넷 규모의 검색을 위한 Python 라이브러리입니다. 전체 인덱스는 약 2GB 로, 대부분의 하드웨어에서 pretty fast retrieval speeds(빠른 검색 속도) 로 로컬에서 실행됩니다.
저는 RAG 컨텍스트를 위해 이러한 결과를 쉽게 가져올 수 있도록 python library 를 구축했습니다.
from llmsearchindex import LLMIndex
index = LLMIndex()
results = index.search("who invented sliced bread?", top_k=5)
여기서 데모를 확인해 볼 수 있습니다: https://zakerytclarke-llmsearchindex.hf.space/
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기