본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:55

ContextRAG: 검색 증강 생성 (RAG)을 위한 추출 없는 계층적 그래프 구축

요약

ContextRAG는 LLM을 통한 엔티티 및 관계 추출 과정 없이 그래프 구조를 구축하는 새로운 RAG 시스템입니다. 잔차 양자화 k-평균과 형식 개념 분석(FCA)을 활용하여 청크 임베딩 기반의 퍼지 개념 그래프를 도출함으로써, 기존 방식 대비 토큰 사용량과 인덱싱 비용을 획기적으로 절감합니다.

핵심 포인트

  • LLM 기반의 엔티티/관계 추출 없이 그래프 토폴로지를 구축하여 비용과 시간을 대폭 절감함
  • 잔차 양자화 k-평균 및 Lukasiewicz 잔여 논리를 이용한 형식 개념 분석(FCA) 적용
  • 소프트 퍼지 조인 및 meet 연산을 통해 브릿지 및 meet 유도형 컨텍스트 노드 생성
  • 기존 HiRAG 방식 대비 인덱싱에 필요한 토큰 수를 극적으로 줄이면서도 효과적인 멀티홉 답변 성능 유지

그래프 구조의 검색 증강 생성 (Retrieval-Augmented Generation, RAG) 시스템은 멀티홉 (multi-hop) 질문에 대한 답변 품질을 향상시킬 수 있지만, 현재의 많은 시스템은 인덱싱 (indexing) 과정에서 엔티티 (entity), 관계 (relation), 요약 (summary)을 추출하기 위해 대규모 언어 모델 (Large Language Models, LLMs)에 의존합니다. 이러한 호출은 코퍼스 (corpus) 크기에 따라 증가하는 토큰 (token) 및 실제 소요 시간 (wall-clock) 비용을 발생시킵니다. 본 논문에서는 LLM 기반의 엔티티 또는 관계 추출 없이 그래프 토폴로지 (graph topology)를 구축하는 그래프 RAG 시스템인 ContextRAG를 제시합니다. ContextRAG는 잔차 양자화 k-평균 (residual-quantization k-means) 및 Lukasiewicz 잔여 논리 (Lukasiewicz residuated logic)를 이용한 형식 개념 분석 (Formal Concept Analysis, FCA)을 사용하여 청크 임베딩 (chunk embeddings) 상의 퍼지 개념 그래프 (fuzzy concept graph)를 도출합니다. 브릿지 형태 (bridge-like) 및 meet 유도형 (meet-derived) 컨텍스트 노드는 LLM이 작성한 그래프 엣지 (graph edges)가 아닌, 소프트 퍼지 조인 (soft fuzzy join) 및 meet 연산을 통해 유도됩니다. 130개 태스크로 구성된 UltraDomain 서브셋에서 ContextRAG는 30회의 LLM 호출과 22,073개의 토큰으로 인덱스를 구축했습니다. 이와 대조적으로, 로컬 HiRAG 재현 스트레스 테스트는 20개 태스크 서브셋에서 그래프 구축 중 실패하기 전까지 870회의 인덱싱 호출과 3.54M개의 토큰을 필요로 했습니다. 이를 130개 태스크로 선형 외삽 (linear extrapolation)하면 2,300만 개 이상의 인덱싱 토큰이 필요함을 의미합니다. ContextRAG는 전체적으로 33.6%의 F1 점수와 멀티홉 (multi-hop) 태스크에서 36.8%의 F1 점수를 얻었습니다. 활성화 분석 (activation analysis)에 따르면, 상위 5개 결과 중 격자 (lattice) 유도 노드를 최소 하나 이상 검색하는 쿼리는 그렇지 않은 쿼리보다 F1 점수가 3.9%포인트 더 높게 나타났습니다. 이러한 연관성은 인과 관계라기보다는 진단적 (diagnostic)인 특성을 보입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0