본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 27. 19:47

대규모 문서 컬렉션 탐색: 다문서 분석적 QA를 위한 MuDABench

요약

본 논문은 대규모 반정형 문서 컬렉션에서 복잡한 분석적 질문에 답하기 위한 새로운 벤치마크인 MuDABench를 소개합니다. 이 벤치마크는 여러 문서를 가로지르는 광범위한 정보 추출, 종합 및 정량적 분석을 요구하며, 기존의 제한적인 다문서 QA 방식과 차별화됩니다. 연구진은 표준 RAG 시스템의 한계를 극복하기 위해 계획-추출-코드 생성 모듈을 오케스트레이션하는 다중 에이전트 워크플로우를 제안했으며, 이는 성능 향상을 보였으나 여전히 인간 전문가 수준에는 미치지 못함을 분석했습니다.

핵심 포인트

  • MuDABench는 대규모 반정형 문서 컬렉션을 대상으로 하는 다문서 분석적 QA 벤치마크이다.
  • 이 벤치마크는 단순한 정보 추출을 넘어, 광범위한 문간 분석 및 정량적 집계를 요구한다.
  • 표준 RAG 시스템은 이러한 복잡한 분석 과제에서 성능 한계를 보인다.
  • 성능 개선을 위해 계획(planning), 추출(extraction), 코드 생성(code generation) 모듈을 결합한 다중 에이전트 워크플로우가 제안되었다.
  • 현재의 주요 병목 현상은 단일 문서 정보 추출 정확도와 도메인 특화 지식 부족이다.

본 논문은 대규모 반정형 문서 컬렉션에 대한 분석적 질문 답변 (analytical question answering) 과제를 소개합니다. 우리는 다문서 분석적 QA 를 위한 벤치마크인 MuDABench 를 제시하며, 이 벤치마크에서는 여러 문서를 가로지르는 정보를 추출하고 종합하여 정량적 분석을 수행하는 질문들을 다룹니다. 기존에 몇 개의 문서만 참조하고 제한된 문간 추론 (cross-document reasoning) 을 요구하는 다문서 QA 벤치마크들과 달리, MuDABench 는 광범위한 문간 분석 및 집계 (inter-document analysis and aggregation) 를 요구합니다. 문서 수준의 메타데이터와 주석 처리된 금융 데이터베이스를 활용한 원격 지도 (distant supervision) 를 통해 구축된 MuDABench 는 80,000 페이지 이상과 332 개의 분석적 QA 인스턴스를 포함합니다. 또한 최종 답변 정확도를 측정하고 추론 과정에 대한 보조 진단 신호로 중간 사실 (intermediate-fact) 커버리지를 사용하는 평가 프로토콜을 제안합니다. 실험 결과, 모든 문서를 평평한 검색 풀 (flat retrieval pool) 로 취급하는 표준 RAG 시스템은 성능이 낮음을 보여줍니다. 이러한 한계를 해결하기 위해 계획 (planning), 추출 (extraction), 코드 생성 (code generation) 모듈을 오케스트레이션하는 다중 에이전트 워크플로우를 제안합니다. 이 접근법은 과정 및 결과 지표를 모두 크게 개선하지만, 인간 전문가의 성과와 비교할 때 여전히 상당한 격차가 존재합니다. 우리의 분석은 단일 문서 정보 추출 정확도와 현재 시스템에 부족한 도메인 특화 지식 (domain-specific knowledge) 을 주요 병목 현상으로 규명했습니다. MuDABench 는 https://github.com/Zhanli-Li/MuDABench 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0