FLOWREADER: 멀티모달 긴 문서 질의응답을 위한 최소 비용 흐름 최적화
요약
FLOWREADER는 긴 멀티모달 문서에서 파편화된 증거를 찾기 위해 최소 비용 흐름(min-cost flow) 문제를 활용하는 새로운 연구입니다. 멀티모달 노드 그래프를 통해 텍ек스트, 표, 그림 간의 연결성을 최적화하여 답변을 생성합니다.
핵심 포인트
- 증거 조립을 최소 비용 흐름 문제로 재구성
- 멀티모달 노드 그래프를 통한 파편화된 증거 연결
- 이중 프로세스 게이트를 통한 적응형 컴퓨팅 적용
- VisDoMBench의 PaperTab 및 SlideVQA 서브셋 최고 성능 달성
긴 멀티모달 (multimodal) 문서는 검색 증강 (retrieval-augmented) 시스템이 텍스트, 표, 슬라이드 전반에 걸쳐 파편화된 증거로부터 답변을 조립하도록 강제합니다. 이러한 증거는 긴 표의 셀(cell)에 나뉘어 있거나, 여러 슬라이드에 걸쳐 퍼져 있거나, 그림과 그에 대한 설명 사이에 분리되어 있을 수 있습니다. Top-$k$ 청크 검색 (chunk retrieval) 방식은 각 파편을 독립적으로 취급하며 증거가 어떻게 연결되는지를 표현할 수 없습니다. 우리는 증거 조립을 멀티모달 노드 그래프 (multimodal node graph) 상의 최소 비용 흐름 (min-cost flow) 문제로 재구성하는 FLOWREADER를 소개합니다. 단일 스코어링 벡터 $h$가 소스 선택 (MMR을 통해), 싱크 (sink) 선택 (길이 인지형 답변 가능성 프록시를 통해), 그리고 모든 에지 (edge)의 비용과 용량을 제어합니다. 최적의 흐름은 후보 증거 경로로 분해되며, 엔트로피 정규화 복제자 역학 (entropy-regularized replicator dynamics)에 의해 압축된 비중복 서브셋이 선택됩니다. 또한 이중 프로세스 게이트 (dual-process gate) 하의 병렬 VLM 워커 (VLM workers)는 답변 일관성이 낮거나 라우팅된 흐름이 과부하될 때 트리거되는 단 한 번의 System-2 정제 패스를 통해 답변을 생성합니다. VisDoMBench에서 FLOWREADER는 파편화된 증거가 지배적인 두 서브셋인 PaperTab ($58.40$, G^{2}-Reader 대비 $+1.30$)과 SlideVQA ($72.93$, $+0.62$)에서 최고 성능을 보였으며, SPIQA, FetaTab, SciGraphQA에서도 경쟁력 있는 성능을 보였습니다. 5개 서브셋 전체에 대한 매크로 평균 (Macro-averaged) 기준, FLOWREADER ($65.47$)는 가장 강력한 베이스라인 (G^{2}-Reader, $66.21$)과 $0.74$ 이내의 차이를 보였습니다. 전반적으로 이러한 결과는 Top-$k$ 검색이 실패하는 파편화된 멀티모달 증거 환경에서 최소 비용 흐름 방식이 우수한 성능을 발휘함을 보여줍니다. 또한 이는 스코어링, 라우팅, 선택 및 적응형 컴퓨팅 (adaptive compute)을 함께 제어할 수 있는 통합된 방법을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기