MODE-RAG: 매니폴드 이상치 진단 및 에너지 기반 검색 증강 생성 평가
요약
멀티모달 RAG의 환각과 논리적 오류를 해결하기 위해 변분 자유 에너지와 내부 어텐션 상태를 활용하는 MODE-RAG를 제안합니다. 5개의 에이전트와 MCTS, 로짓 섭동을 통해 고위험 쿼리를 동적으로 제어하며 시스템의 견고성을 높입니다.
핵심 포인트
- 변분 자유 에너지(VFE) 기반의 동적 개입 제어 메커니즘 제안
- MCTS와 로짓 섭동을 통한 인과적 도출 및 아첨 현상 억제
- 5단계 에이전트 시스템을 통한 교정 및 사후 사실 검증 수행
- 새로운 평가 데이터셋인 ModeVent 도입 및 성능 입증
멀티모달 검색 증강 생성 (Multimodal Retrieval-Augmented Generation, M-RAG)은 거대 시각-언어 모델 (Large Vision-Language Models)을 향상시키지만, 교차 모달 환각 (cross-modal hallucinations), 인과적 조작 (causal fabrications), 그리고 아첨 (sycophancy) 현상에 매우 취약한 상태로 남아 있습니다. 더욱이, 기존의 완화 파이프라인은 종종 개입의 역설 (intervention paradox)에 직면합니다. 즉, 정적 규칙 (static rules)은 정확한 생성을 불필요하게 방해하는 경향이 있는 반면, 멀티모달 추론을 완전히 가이드 없이 방치하면 기존의 불일치가 심각한 논리적 조작으로 이어지게 됩니다. 이러한 환각을 정량화하고 완화하기 위해, 우리는 변분 자유 에너지 (Variational Free Energy, VFE)와 내부 어텐션 상태 (internal attention states)를 기반으로 개입을 동적으로 제어하는 멀티 에이전트 시스템인 MODE-RAG를 제안합니다. 고위험 쿼리는 5개의 단계별 에이전트로 라우팅되며, 엄격한 인과적 도출을 위한 몬테카를로 트리 탐색 (Monte Carlo Tree Search, MCTS)과 아첨을 억제하기 위한 로짓 섭동 (logit perturbations)을 통합합니다. 전용 교정 (Correction) 및 감독 (Overseer) 에이전트는 형식의 안정성을 보장하고 사후 사실 검증 (post-hoc factual verification)을 수행합니다. 우리의 접근 방식을 객관적으로 평가하기 위해, 우리는 MultiVent 데이터셋에서 파생된 도전적인 서브셋인 ModeVent를 도입합니다. 광범위한 실험 결과, 우리 시스템은 환각률과 논리적 조작을 효과적으로 감소시켜 M-RAG 시스템의 견고성 (robustness)을 크게 향상시키는 것으로 나타났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기