지식 그래프 기반 멀티홉 검색을 위한 쿼리 인식 확산 활성화 (Query-Aware Spreading Activation)
요약
지식 그래프 기반 Graph RAG의 멀티홉 검색 성능을 높이기 위해 쿼리 인식 확산 활성화(Spreading Activation) 방식을 제안합니다. 단일 Cypher 쿼리로 Neo4j 내에서 검색을 완결하여 데이터베이스 통합 문제를 해결하고 검색 지연 시간을 대폭 단축했습니다.
핵심 포인트
- 쿼리 인식을 통한 단계별 가중치 부여로 멀티홉 검색 정확도 향상
- 단일 Cypher 쿼리 실행으로 그래프 데이터베이스(Neo4j)와의 통합 최적화
- 기존 HippoRAG 대비 EM 기준 5.3, F1 기준 3.4 성능 우위 기록
- 시맨틱 게이트 도입을 통해 검색 지연 시간(latency)을 최대 4.9배 단축
지식 그래프(Knowledge Graphs)를 기반으로 구축된 검색 증강 생성(Graph RAG)은 그래프 구조를 활용함으로써 멀티홉(multi-hop) 질의응답에서 평면적인 문단 검색(flat passage retrieval)보다 뛰어난 성능을 보입니다. 그러나 대부분의 기존 시스템에서는 질문이 시드 노드(seed nodes)를 설정하는 역할만 할 뿐, 이후의 탐색(traversal)은 그래프 구조에만 의존하는 "쿼리 맹목적(query-blind)" 방식이 됩니다. 예외적으로 QAFD-RAG는 에지 재가중치(edge re-weighting)를 결합한 흐름 확산 솔버(flow-diffusion solver)를 통해 쿼리 인식 탐색을 구현합니다. 하지만 이 아키텍처는 전체 그래프를 Python 메모리에 로드해야 하며, 반복 횟수가 가변적인 반복적 솔버(iterative solver)를 사용하기 때문에 그래프 데이터베이스와의 통합이 복잡합니다. 본 논문에서는 매 단계마다 단일 시맨틱 게이트(semantic gate)를 사용하는 확산 활성화(spreading-activation) 방법을 제안합니다. 이 방식에서 단계별 가중치는 후보 엔티티(entity)의 설명과 질문 사이의 코사인 유사도(cosine similarity)이며, 반복 횟수는 고정됩니다. 시드 매핑(seed mapping), 전파(propagation), Top-K 선택 및 컨텍스트 조립(context assembly)을 포함한 전체 검색 절차는 Neo4j로의 단 한 번의 왕복(round-trip)으로 실행되는 단일 Cypher 쿼리로 표현되므로, 그래프가 데이터베이스를 벗어나지 않습니다. MuSiQue 데이터셋에서 우리 방법은 QAFD-RAG와 정확히 일치하는 성능(32.80 대 33.50)을 보였으며, 비교 대상 중 가장 강력한 순수 구조적 베이스라인인 HippoRAG보다 EM(Exact Match) 기준 5.3, F1 기준 3.4만큼 앞서는 성능을 기록했습니다. 2WikiMultiHopQA에서는 HippoRAG와 QAFD-RAG가 그들의 구절-노드(phrase-node) 아키텍처 덕분에 우위를 유지했습니다. 게이트를 비활성화한 절제 연구(ablation)를 통해, 게이트가 F1 점수를 3.6에서 7.4포인트 동시에 향상시키고 검색 지연 시간(retrieval-latency)을 1.5배에서 4.9배까지 단축시키는 핵심 요소임을 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기