arXiv논문2026. 04. 27. 19:47

대규모 문서 컬렉션 탐색: 다문서 분석적 QA를 위한 MuDABench

요약

본 논문은 대규모 반정형 문서 컬렉션에서 복잡한 분석적 질문에 답하기 위한 새로운 벤치마크인 MuDABench를 소개합니다. 이 벤치마크는 여러 문서를 가로지르는 광범위한 정보 추출, 종합 및 정량적 분석을 요구하며, 기존의 제한적인 다문서 QA 방식과 차별화됩니다. 연구진은 표준 RAG 시스템의 한계를 극복하기 위해 계획-추출-코드 생성 모듈을 오케스트레이션하는 다중 에이전트 워크플로우를 제안했으며, 이는 성능 향상을 보였으나 여전히 인간 전문가 수준에는 미치지 못함을 분석했습니다.

핵심 포인트

MuDABench는 대규모 반정형 문서 컬렉션을 대상으로 하는 다문서 분석적 QA 벤치마크이다.
이 벤치마크는 단순한 정보 추출을 넘어, 광범위한 문간 분석 및 정량적 집계를 요구한다.
표준 RAG 시스템은 이러한 복잡한 분석 과제에서 성능 한계를 보인다.
성능 개선을 위해 계획(planning), 추출(extraction), 코드 생성(code generation) 모듈을 결합한 다중 에이전트 워크플로우가 제안되었다.
현재의 주요 병목 현상은 단일 문서 정보 추출 정확도와 도메인 특화 지식 부족이다.

본 논문은 대규모 반정형 문서 컬렉션에 대한 분석적 질문 답변 (analytical question answering) 과제를 소개합니다. 우리는 다문서 분석적 QA 를 위한 벤치마크인 MuDABench 를 제시하며, 이 벤치마크에서는 여러 문서를 가로지르는 정보를 추출하고 종합하여 정량적 분석을 수행하는 질문들을 다룹니다. 기존에 몇 개의 문서만 참조하고 제한된 문간 추론 (cross-document reasoning) 을 요구하는 다문서 QA 벤치마크들과 달리, MuDABench 는 광범위한 문간 분석 및 집계 (inter-document analysis and aggregation) 를 요구합니다. 문서 수준의 메타데이터와 주석 처리된 금융 데이터베이스를 활용한 원격 지도 (distant supervision) 를 통해 구축된 MuDABench 는 80,000 페이지 이상과 332 개의 분석적 QA 인스턴스를 포함합니다. 또한 최종 답변 정확도를 측정하고 추론 과정에 대한 보조 진단 신호로 중간 사실 (intermediate-fact) 커버리지를 사용하는 평가 프로토콜을 제안합니다. 실험 결과, 모든 문서를 평평한 검색 풀 (flat retrieval pool) 로 취급하는 표준 RAG 시스템은 성능이 낮음을 보여줍니다. 이러한 한계를 해결하기 위해 계획 (planning), 추출 (extraction), 코드 생성 (code generation) 모듈을 오케스트레이션하는 다중 에이전트 워크플로우를 제안합니다. 이 접근법은 과정 및 결과 지표를 모두 크게 개선하지만, 인간 전문가의 성과와 비교할 때 여전히 상당한 격차가 존재합니다. 우리의 분석은 단일 문서 정보 추출 정확도와 현재 시스템에 부족한 도메인 특화 지식 (domain-specific knowledge) 을 주요 병목 현상으로 규명했습니다. MuDABench 는 https://github.com/Zhanli-Li/MuDABench 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 문서 컬렉션 탐색: 다문서 분석적 QA를 위한 MuDABench

요약

핵심 포인트

댓글