장면에서 요소로: 검증 가능한 멀티모달 RAG를 위한 다중 입도 증거 검색

멀티모달 검색 증강 생성 (Multimodal Retrieval-Augmented Generation (RAG)) 시스템은 거친 입도 (coarse granularities, 전체 이미지 또는 장면)로 증거를 검색하며, 이는 세밀한 사용자 질의 (fine-grained user queries)와 불일치를 일으키고 실패 원인을 검증할 수 없게 만듭니다. 우리는 개별 이미지가 엔티티 (entities)의 일부만을 포함하는 부분 관찰 (partial observation) 문제를 포착하기 위해, 여러 관점에 걸쳐 요소 수준 (element-level) 주석이 달린 실제 랜드마크를 특징으로 하는 멀티모달 벤치마크인 GranuVistaVQA를 소개합니다. 나아가 우리는 세 가지 단계, 즉 요소 수준의 탐지 및 분류 (element-level detection and classification), 증거 검색을 위한 다중 입도 교차 모달 정렬 (multi-granularity cross-modal alignment), 그리고 속성 제약 생성 (attribution-constrained generation)을 통해 시각적 요소를 일급 검색 단위 (first-class retrieval units)로 취급하는 다중 입도 프레임워크인 GranuRAG를 제안합니다. 암시적 어텐션 (implicit attention)에 의존하는 대신 요소 수준에서 검색을 근거로 삼음으로써, 우리의 접근 방식은 투명한 오류 진단을 가능하게 합니다. 실험을 통해 GranuRAG가 이 작업에 대해 6개의 강력한 베이스라인 (baselines) 대비 최대 29.2%의 성능 향상을 달성함을 입증했습니다.

Insights

장면에서 요소로: 검증 가능한 멀티모달 RAG를 위한 다중 입도 증거 검색

요약

핵심 포인트

댓글

AI 엔지니어를 위한 10가지 에이전트 평가(Evals) 방법

Truss: 새로운 단일 사용자 로컬 하네스 (local harness)

Nike, 내년 1월부터 중국 내 온라인 도매 판매 제한 예정 – 보고서

오늘 Supermicro 주가가 급등하는 이유

AI 엔지니어를 위한 10가지 에이전트 평가(Evals) 방법

Truss: 새로운 단일 사용자 로컬 하네스 (local harness)

Nike, 내년 1월부터 중국 내 온라인 도매 판매 제한 예정 – 보고서

오늘 Supermicro 주가가 급등하는 이유