MEG-RAG: RAG에서의 증거 선택을 위한 다중 모달 증거 기반 정량화
요약
본 논문은 다중 모달 리트리벌-오거멘티드 제너레이션(MRAG) 시스템의 한계점, 즉 검색된 증거가 답변의 의미적 핵심을 얼마나 잘 지원하는지 정량화하기 어렵다는 문제를 해결하고자 합니다. 이를 위해 '다중 모달 증거 기반(MEG)'이라는 새로운 의미 인식 지표를 제안하며, 이는 단순히 표면적인 관련성이 아닌 답변의 의미적 핵심에 기여하는 고-IDF 정보 전달 토큰에 초점을 맞춥니다. 궁극적으로 MEG를 활용하여 검색된 증거를 정답의 의미 앵커와 정렬하도록 다중 모달 리랭커를 훈련한 'MEG-RAG' 프레임워크를 제시하며, 이를 통해 생성 출력의 정확도와 다중 모달 일관성을 크게 향상시킵니다.
핵심 포인트
- 기존 MRAG 시스템은 검색된 증거가 답변의 의미적 핵심을 지원하는지 판단하기 어려웠다.
- 새로운 지표인 '다중 모달 증거 기반(MEG)'은 단순히 위치 중심 신뢰도가 아닌, 의미적으로 중요한 정보 전달 토큰에 초점을 맞춘 정량화 방법을 제공한다.
- MEG를 활용하여 검색된 증거를 답변의 의미 앵커와 정렬하는 다중 모달 리랭커가 개발되었다.
- 제안된 MEG-RAG 프레임워크는 기존 베이스라인을 능가하며, 생성 출력의 정확도와 다중 모달 일관성을 향상시킨다.
다중 모달 리트리벌-오거멘티드 제너레이션 (MRAG) 은 다중 모달 대형 언어 모델 (MLLMs) 의 핵심 한계인 환각 현상과 구식 지식 등의 문제를 해결합니다. 그러나 현재의 MRAG 시스템은 검색된 다중 모달 데이터가 답변의 의미적 핵심을 진정으로 지원하는지, 아니면 단순히 표면적인 관련성을 제공하는지를 구분하는 데 어려움을 겪습니다. 기존 지표들은 종종 휴리스틱 기반의 위치 중심 신뢰도를 의존하여 다중 모달 엔티티의 정보 밀도를 포착하지 못합니다. 이를 해결하기 위해 우리는 검색된 증거의 기여도를 정량화하는 의미 인식 (semantic-aware) 지표인 다중 모달 증거 기반 (Multi-modal Evidence Grounding, MEG) 을 제안합니다. 표준 신뢰도 측정과 달리 MEG 는 답변의 의미적 핵심을 더 잘 포착하는 고-IDF 정보 전달 토큰에 초점을 맞춘 'Semantic Certainty Anchoring'을 활용합니다. MEG 를 기반으로 하여 우리는 검색된 증거를 정답의 의미 앵커 (semantic anchors) 와 정렬하도록 다중 모달 리랭커를 훈련하는 MEG-RAG 프레임워크를 소개합니다. 토큰 확률 분포가 아닌 의미 기반 정렬에 따라 고 가치 콘텐츠를 우선시함으로써, MEG-RAG 는 생성된 출력의 정확도와 다중 모달 일관성을 향상시킵니다. M$^2$RAG 벤치마크에서 수행한 광범위한 실험 결과, MEG-RAG 는 강력한 베이스라인을 일관되게 능가하며 다양한 티처 모델 (teacher models) 에서 견고한 일반화 성능을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기