본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 03. 11:05

구조를 통한 검색(Retrieve), 재순위화(Rerank), 생성(Generate)의 촉진

요약

문서 기반 대화 시스템(DGDS)에서 문서의 구조적 정보를 활용하여 검색, 재순위화, 생성 성능을 높이는 SF-Re2G 방법론을 제안합니다. 기존의 독립적 구절 단위 접근 방식이 가진 문맥 부족 문제를 해결하기 위해 섹션 내 대조 학습과 서브그래프 기반 재순위화를 도입했습니다.

핵심 포인트

  • 문서 구조 정보를 활용한 SF-Re2G 프레임워크 제안
  • 동일 섹션 내 구절 대조를 통한 검색 성능 향상
  • 서브그래프 그룹화를 통한 구조 강화 재순위화 구현
  • 문맥을 고려한 구절 선택으로 생성 품질 개선
  • 중국어 및 영어 데이터셋 실험을 통한 유효성 입증

문서 기반 대화 시스템 (Document-grounded dialogue systems, DGDS)은 도메인 특화된 사용자 질문에 답하기 위해 외부 문서의 지식을 활용합니다. 기존의 솔루션들은 일반적으로 검색 및 응답 생성을 위해 문서를 독립적인 구절 (passages) 단위로 나눕니다. 그러나 이러한 접근 방식은 문서 내의 구조적 정보 (structural information)를 잘 활용하지 못할 뿐만 아니라, 지식 선택 및 응답을 위한 충분한 (문서) 문맥 (context)을 제공하지 못합니다. 본 논문은 이러한 문제를 체계적으로 해결하기 위해 SF-Re2G를 제안합니다. 첫째, 동일한 섹션 내의 다른 구절들과 대조함으로써 구절 표현 (passage representation)을 개선하여 검색 성능을 향상시키고자 합니다. 둘째, 하나의 대화 턴 (dialog turn)에 대한 여러 근거 구절들이 동일한 이웃 영역에 위치하는 경향이 있다는 사실을 활용하여 구조 강화 재순위화기 (structure-enhanced reranker)를 구축합니다. 구체적으로, 검색된 후보군을 문서 구조에 따라 서브그래프 (subgraphs)로 그룹화합니다. 재순위화기는 그룹 정보를 통합하여 후보군의 점수를 다시 매깁니다 (rescore). 마지막으로, 더 나은 생성을 위해 서브그래프 문맥을 고려하여 선택된 구절들을 응답 생성에 사용합니다. 두 가지 DGDS 데이터셋에 대한 실험 결과는 중국어와 영어 모두에서 본 방법론의 유효성을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0