본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 12:21

기호적으로 질의할 것인가, 의미론적으로 검색할 것인가? 반구조화된 질의응답을 위한 데이터셋 및 방법론

요약

반구조화된 데이터에서 RAG의 한계를 극복하기 위해 기호적 질의와 의미론적 검색을 결합한 DualGraph 프레임워크를 제안합니다. 텍스트 지식 그래프와 기호 지식 그래프를 동시에 활용하여 정확한 필터링과 집계를 지원하며, 새로운 벤치마크인 SpecsQA를 통해 성능을 입증했습니다.

핵심 포인트

  • 의미론적 검색과 기호적 질의의 상호 보완적 결합
  • 반구조화된 코퍼스에서의 정확한 필터링 및 집계 가능
  • 새로운 벤치마크 데이터셋 SpecsQA 소개
  • 기존 GraphRAG 및 밀집 검색 모델 대비 우수한 성능

질의응답을 위한 검색 증강 생성 (Retrieval-Augmented Generation, RAG) 시스템은 일반적으로 질의 (query)와 문서 청크 (document chunks) 사이의 의미론적 유사성 (semantic similarity)을 통해 증거를 검색합니다. 비구조화된 텍스트에는 효과적이지만, 이 방식은 답변을 위해 여러 문서에 걸친 구조화된 속성에 대한 정확한 필터링 (filtering), 집계 (aggregation), 또는 전수 검색 (exhaustive retrieval)이 필요한 반구조화된 코퍼스 (semi-structured corpora)에서는 신뢰도가 떨어집니다. 기호적 접근 방식 (Symbolic approaches)은 이러한 연산을 지원하지만, 노이즈가 있는 자연어 코퍼스에서는 종종 취약한 모습을 보입니다. 우리는 의미론적 검색을 위한 텍스트 지식 그래프 (Textual Knowledge Graph)와 타입화된 주어-술어-목적어 (subject--predicate--object) 트리플 (triples)에 대한 기호적 질의를 위한 기호 지식 그래프 (Symbolic Knowledge Graph)라는 두 가지 상호 보완적인 뷰를 통해 문서를 표현하는 RAG 프레임워크인 DualGraph로 이 간극을 해결합니다. 이 두 구성 요소를 기반으로, 우리는 의미론적 증거와 기호적 증거를 선택하거나 결합하기 위한 다양한 전략을 제공합니다. 또한, 우리는 반구조화된 제품 문서와 개방형 및 사양 중심 검색 (specification-oriented retrieval)을 아우르는 수동으로 큐레이션된 질문들로 구성된 상업용 쇼핑 웹사이트의 벤치마크인 SpecsQA를 소개합니다. 실험 결과, DualGraph는 질문 유형 전반에 걸쳐 최신 밀집 검색 (dense-retrieval), GraphRAG, 기호적 (symbolic) 및 테이블 지향 (table-oriented) 베이스라인 모델들을 일관되게 능가함을 보여줍니다. 코드와 데이터는 https://github.com/corneliocristina/DualGraphRAG 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0