P Moth-Retrieval: 쿼리 시점 오케스트레이션을 통한 그래프 없는 멀티홉 검색 (HotpotQA에서 그래프 기반 시스템을 능가함)

저희는 지식 그래프 (Knowledge Graph)를 완전히 건너뛰는 멀티홉 RAG 프레임워크인 MOTHRAG를 오픈소스로 공개했습니다.

저희는 멀티홉 RAG를 구축하면서 동일한 벽에 계속 부딪혔습니다. 가장 높은 정확도를 보이는 시스템들(GraphRAG, HippoRAG, RAPTOR)은 모두 오프라인에서 구축된 지식 그래프에 의존하는데, 이는 데이터가 변경되는 순간 문제가 됩니다! 데이터가 업데이트될 때마다 그래프를 재구축하기 위해 무거운 LLM 인덱싱 (Indexing) 과정을 다시 실행해야 합니다. 만약 코퍼스 (Corpus)가 매일 업데이트된다면 (가격, 내부 보고서, 지원 티켓, 뉴스 등), 지속적이고 가혹한 재인덱싱 비용을 지불해야 합니다.

대신 MOTHRAG는 쿼리 시점 오케스트레이션 (Query-time orchestration)을 사용하는 그래프 없는 밀집 인덱스 (Graph-free dense index)를 사용합니다 (그래프 없음, GPU 없음). 모든 구성 요소는 일반적인 API 뒤에서 작동합니다.

저희는 HotpotQA, 2WikiMultiHopQA, MuSiQue 데이터셋에서 무거운 그래프 기반 시스템들과 벤치마크를 수행했습니다 (정확도 / F1):

벤치마크	MOTHRAG (자사)	GraphRAG	HippoRAG	RAPTOR
HotpotQA	78.1	68.6	75.5	69.5
2WikiMultiHop	76.3	58.6	71.0	52.1
MuSiQue	50.5	38.5	48.6	28.9

또한 업데이트는 임베딩 후 추가 (Embed-and-append) 방식일 뿐이며, 재구축이나 재학습 (Retraining)이 필요하지 않습니다. 비용은 일반 API 사용 시 쿼리당 약 $0.03이며, 어디에도 GPU가 필요하지 않습니다.

제약된 디코딩 (Constrained decoding)을 사용하는 GPU 종속적 시스템(NeocorRAG)과 비교했을 때, 압도적인 승리는 아닙니다. HotpotQA(78.1 대 78.3)와 2Wiki(76.3 대 76.1)에서는 대등한 성능을 보였으나, MuSiQue(50.5 대 52.6)에서는 뒤처졌습니다. MuSiQue는 저희의 약점이며 (그곳에서의 검색 재현율 (Retrieval recall) 병목 현상), 아직 해결하지 못했습니다.

저희가 얻은 교훈은 다음과 같습니다: 변경되는 데이터에 대해 멀티홉 검색을 수행할 때, 그래프 오버헤드는 정확도가 아닌 주로 재구축 비용을 발생시킨다는 것입니다. 우수한 쿼리 시점 오케스트레이션을 갖춘 그래프 없는 인덱스가 잘 버텨주었습니다.

Apache-2.0 라이선스이며, 표준 pip install과 API 키만 있으면 실행할 수 있습니다. 리포지토리 (Repo) 링크는 댓글에 있습니다.

프로덕션 환경에서 빈번하게 변경되는 데이터를 대상으로 RAG를 운영 중인 분들의 피드백을 기다립니다!

Insights

P Moth-Retrieval: 쿼리 시점 오케스트레이션을 통한 그래프 없는 멀티홉 검색 (HotpotQA에서 그래프 기반 시스템을 능가함)

요약

핵심 포인트

댓글

High Income Securities Fund, 주당 $0.058 배당금 발표

생성형 엔진 최적화(GEO): SEO 키워드를 넘어

Sprint 2 종료: 로컬 프로젝트 인텔리전스 (Local Project Intelligence)

서비스 간 보안 내부 통신

생성형 엔진 최적화(GEO): SEO 키워드를 넘어

Sprint 2 종료: 로컬 프로젝트 인텔리전스 (Local Project Intelligence)

서비스 간 보안 내부 통신