문맥 인식 및 관계 인식을 위한 통합된 그래프 검색 증강 생성 (Graph Retrieval-Augmented Generation) 프레임워크
요약
기존 그래프 RAG의 한계를 극복하기 위해 문맥과 관계를 통합한 계층적 그래프 RAG 프레임워크인 HyGRAG를 제안합니다. 청크와 엔티티 노드를 결합한 하이브리드 구조를 통해 멀티홉 추론 성능을 크게 향상시켰습니다.
핵심 포인트
- 엔티티 및 청크 중심 방식의 한계인 지식 융합 부재 해결
- 계층적 인덱스 구조와 LLM 기반 요약본을 통한 창발적 지식 활용
- 동적 코퍼스 대응을 위한 국소적 재요약 기반 업데이트 알고리즘 설계
- 멀티홉 추론 작업에서 평균 정확도 9.7% 향상 달성
검색 증강 생성 (Retrieval-Augmented Generation, RAG)은 외부 지식으로 대규모 언어 모델 (Large Language Models, LLMs)을 강화하기 위한 패러다임으로 등장했으나, 기존의 그래프 기반 방식들은 근본적인 한계에 직면해 있습니다. 즉, 엔티티 중심 (entity-centric) 및 청크 중심 (chunk-centric) 접근 방식은 진정한 지식 융합 없이 원문 텍스트에 고정된 표현(representations)을 기반으로 작동합니다. 엔티티 중심 방식은 논리적으로 관련된 콘텐츠를 연결하고 청크 중심 방식은 문맥을 보존하지만, 두 방식 모두 유사도 검색 (similarity search)을 통해 정보를 개별적으로 검색하므로, 그 합성 과정에서 발생하는 창발적 이해 (emergent understanding)를 놓치게 됩니다.
본 논문에서 우리는 세 가지 핵심 과제를 해결함으로써 소스 문서를 초월하는 계층적 그래프 RAG 프레임워크인 HyGRAG를 제안합니다. 세 가지 과제는 다음과 같습니다: 문맥 및 관계 정보를 진정으로 통합하는 요약본 구축, 이러한 합성된 표현을 활용하여 검색 과정에서 창발적 지식 (emergent knowledge)에 접근하는 것, 그리고 동적 코퍼스 (dynamic corpora)를 위해 계층적 구조를 효율적으로 업데이트하는 것입니다. 구체적으로, 우리는 청크 (chunk) 노드와 엔티티 (entity) 노드를 모두 포함하는 하이브리드 그래프 상에 계층적 인덱스 구조를 설계한 후, 이를 반복적으로 클러스터링하고 LLM 기반의 요약본을 생성합니다. 그다음, 커뮤니티 멤버십 (community membership)을 통해 확장하는 동시에 모든 추상화 수준을 가로질러 검색하는 문맥 및 관계 인식 검색 (context and relation-aware retrieval)을 설계합니다. 또한, 국소적 재요약 (local re-summarization)만을 사용하는 부착 기반 알고리즘 (attachment-based algorithms)을 통해 동적 지식 업데이트를 가능하게 합니다. 실험 결과에 따르면, HyGRAG는 합리적인 효율성을 유지하면서 멀티홉 추론 (multi-hop reasoning) 작업의 평균 정확도를 9.7% 향상시켰습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기