arXiv논문2026. 06. 02. 12:23

TVIR: 텍스트-시각 요소 상호 결합형 보고서 생성을 위한 심층 연구 에이전트 구축

요약

텍스트와 시각적 요소가 결합된 보고서 생성을 위한 새로운 벤치마크 TVIR-Bench와 계층적 멀티 에이전트 프레임워크인 TVIR-Agent를 제안합니다. 기존 텍스트 중심 연구의 한계를 넘어 시각적 요소의 신뢰성과 정렬을 평가하는 데 중점을 둡니다.

핵심 포인트

텍스트-시각 상호 결합형 보고서 생성을 위한 TVIR-Bench 공개
계층적 멀티 에이전트 기반의 TVIR-Agent 프레임워크 제안
텍스트와 시각적 평가를 결합한 이중 경로 평가 프레임워크 개발
증거 기반 멀티모달 보고서 생성의 중요성 입증

심층 연구 에이전트 (Deep Research Agents)는 다단계 정보 검색 (Information Retrieval), 추론 (Reasoning), 그리고 장문 보고서 생성 (Long-form Report Generation)에서 강력한 능력을 보여주었으나, 기존의 벤치마크와 시스템들은 여전히 주로 텍스트 중심적이며, 시각적 요소가 사실적으로 신뢰할 수 있는지, 그리고 주변 분석 내용과 잘 정렬 (Aligned)되어 있는지에 대한 평가는 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 TVIR (Text--Visual Interleaved Report Generation)을 소개합니다. 여기에는 시각적 요소가 특정 분석적 하위 목표 (Sub-goals)를 수행해야 하는 100개의 전문가 큐레이션 멀티모달 심층 연구 작업으로 구성된 벤치마크인 TVIR-Bench와, 개요 작성, 이미지 검색, 추적 가능한 출처를 가진 차트 생성, 그리고 문맥 인식 순차적 글쓰기 (Context-aware Sequential Writing)를 통해 보고서를 구성하는 강력한 베이스라인 역할을 하는 계층적 멀티 에이전트 프레임워크인 TVIR-Agent가 포함됩니다. 나아가 우리는 텍스트 평가 (Textual Assessment)와 시각적 평가 (Visual Assessment)를 결합한 이중 경로 평가 프레임워크를 개발했습니다. 9개의 심층 연구 시스템을 대상으로 한 실험 결과, TVIR-Agent는 강력한 전반적 성능을 달성하였으며, 이는 증거 기반 보고서 생성을 위한 명시적인 멀티모달 설계 및 평가의 중요성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TVIR: 텍스트-시각 요소 상호 결합형 보고서 생성을 위한 심층 연구 에이전트 구축

요약

핵심 포인트

댓글