본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 12:23

TVIR: 텍스트-시각 요소 상호 결합형 보고서 생성을 위한 심층 연구 에이전트 구축

요약

텍스트와 시각적 요소가 결합된 보고서 생성을 위한 새로운 벤치마크 TVIR-Bench와 계층적 멀티 에이전트 프레임워크인 TVIR-Agent를 제안합니다. 기존 텍스트 중심 연구의 한계를 넘어 시각적 요소의 신뢰성과 정렬을 평가하는 데 중점을 둡니다.

핵심 포인트

  • 텍스트-시각 상호 결합형 보고서 생성을 위한 TVIR-Bench 공개
  • 계층적 멀티 에이전트 기반의 TVIR-Agent 프레임워크 제안
  • 텍스트와 시각적 평가를 결합한 이중 경로 평가 프레임워크 개발
  • 증거 기반 멀티모달 보고서 생성의 중요성 입증

심층 연구 에이전트 (Deep Research Agents)는 다단계 정보 검색 (Information Retrieval), 추론 (Reasoning), 그리고 장문 보고서 생성 (Long-form Report Generation)에서 강력한 능력을 보여주었으나, 기존의 벤치마크와 시스템들은 여전히 주로 텍스트 중심적이며, 시각적 요소가 사실적으로 신뢰할 수 있는지, 그리고 주변 분석 내용과 잘 정렬 (Aligned)되어 있는지에 대한 평가는 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 TVIR (Text--Visual Interleaved Report Generation)을 소개합니다. 여기에는 시각적 요소가 특정 분석적 하위 목표 (Sub-goals)를 수행해야 하는 100개의 전문가 큐레이션 멀티모달 심층 연구 작업으로 구성된 벤치마크인 TVIR-Bench와, 개요 작성, 이미지 검색, 추적 가능한 출처를 가진 차트 생성, 그리고 문맥 인식 순차적 글쓰기 (Context-aware Sequential Writing)를 통해 보고서를 구성하는 강력한 베이스라인 역할을 하는 계층적 멀티 에이전트 프레임워크인 TVIR-Agent가 포함됩니다. 나아가 우리는 텍스트 평가 (Textual Assessment)와 시각적 평가 (Visual Assessment)를 결합한 이중 경로 평가 프레임워크를 개발했습니다. 9개의 심층 연구 시스템을 대상으로 한 실험 결과, TVIR-Agent는 강력한 전반적 성능을 달성하였으며, 이는 증거 기반 보고서 생성을 위한 명시적인 멀티모달 설계 및 평가의 중요성을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0