장면에서 요소로: 검증 가능한 멀티모달 RAG를 위한 다중 입도 증거 검색
요약
기존 멀티모달 RAG 시스템은 전체 장면(coarse granularity) 단위로 증거를 검색하여, 세밀한 사용자 질의에 대한 불일치나 실패 원인 검증이 어렵다는 한계가 있습니다. 본 논문에서는 개별 이미지가 엔티티의 부분 관찰 문제를 해결하기 위해 GranuVistaVQA라는 요소 수준 주석 기반 멀티모달 벤치마크를 제시합니다. 또한, 시각적 요소를 일급 검색 단위로 취급하는 다중 입도 프레임워크인 GranuRAG를 제안하며, 이를 통해 투명한 오류 진단과 높은 성능 향상을 달성했습니다.
핵심 포인트
- 기존 멀티모달 RAG는 거친 입도로 인해 세밀한 질의에 대한 검증이 어렵다.
- GranuVistaVQA는 요소 수준 주석을 활용하여 부분 관찰 문제를 다루는 새로운 벤치마크이다.
- GranuRAG 프레임워크는 요소 탐지/분류, 다중 입도 정렬, 속성 제약 생성을 포함한다.
- 요소 수준 검색을 근거로 함으로써 투명한 오류 진단이 가능하다.
- 실험 결과, GranuRAG는 기존 베이스라인 대비 최대 29.2%의 성능 향상을 보였다.
멀티모달 검색 증강 생성 (Multimodal Retrieval-Augmented Generation (RAG)) 시스템은 거친 입도 (coarse granularities, 전체 이미지 또는 장면)로 증거를 검색하며, 이는 세밀한 사용자 질의 (fine-grained user queries)와 불일치를 일으키고 실패 원인을 검증할 수 없게 만듭니다. 우리는 개별 이미지가 엔티티 (entities)의 일부만을 포함하는 부분 관찰 (partial observation) 문제를 포착하기 위해, 여러 관점에 걸쳐 요소 수준 (element-level) 주석이 달린 실제 랜드마크를 특징으로 하는 멀티모달 벤치마크인 GranuVistaVQA를 소개합니다. 나아가 우리는 세 가지 단계, 즉 요소 수준의 탐지 및 분류 (element-level detection and classification), 증거 검색을 위한 다중 입도 교차 모달 정렬 (multi-granularity cross-modal alignment), 그리고 속성 제약 생성 (attribution-constrained generation)을 통해 시각적 요소를 일급 검색 단위 (first-class retrieval units)로 취급하는 다중 입도 프레임워크인 GranuRAG를 제안합니다. 암시적 어텐션 (implicit attention)에 의존하는 대신 요소 수준에서 검색을 근거로 삼음으로써, 우리의 접근 방식은 투명한 오류 진단을 가능하게 합니다. 실험을 통해 GranuRAG가 이 작업에 대해 6개의 강력한 베이스라인 (baselines) 대비 최대 29.2%의 성능 향상을 달성함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기