arXiv논문2026. 04. 28. 12:29

BERAG: 지식 기반 시각적 질문 답변을 위한 베이지안 앙상블 리트리벌 오거멘티드 제너레이션

요약

본 논문은 기존의 단일 결합 컨텍스트 기반 RAG(리트리브럴 오거멘티드 제너레이션) 방식이 가지는 'lost-in-the-middle' 효과, 낮은 확장성, 그리고 기여도 추적의 어려움 등의 한계를 극복하기 위해 BERAG(베이지안 앙상블 리트리벌 오거멘티드 제너레이션) 프레임워크를 제안합니다. BERAG는 검색된 개별 문서에 조건부로 작용하며, 베이즈 정리를 사용하여 문서 사후 확률을 토큰 단위로 업데이트하는 것이 핵심입니다. 이 접근법은 지식 기반 시각적 질문 답변(Knowledge-based VQA)과 같은 복잡한 작업에서 표준 RAG 대비 성능 향상을 입증하고, 정보의 명확한 귀속 및 효율적인 추론 과정을 제공합니다.

핵심 포인트

기존 RAG는 단일 컨텍스트 결합 방식이라 'lost-in-the-middle' 효과와 확장성 문제를 겪는다.
BERAG는 검색된 개별 문서에 조건부로 작용하며, 베이즈 정리를 이용해 토큰 단위로 문서 사후 확률을 업데이트한다.
이 접근법은 문서 기여도의 명확한 귀속(attribution)과 확률적 재순위화가 가능하여 대규모 컬렉션에 적합하다.
BERAG는 지식 기반 시각적 질문 답변(Knowledge-based VQA)에서 표준 RAG 대비 상당한 성능 개선을 보였다.

리트리벌 오거멘티드 제너레이션 (RAG) 을 활용한 질문 답변의 일반적인 접근법은 문서를 단일 컨텍스트로 연결하여 언어 모델에 전달하고 답안을 생성하는 것입니다. 이 전략은 간단하지만, 개별 문서의 기여도를 가려 attribution(귀속) 을 어렵게 만들며, 긴 컨텍스트에서 관련 정보를 간과하게 하는 lost-in-the-middle'' 효과를 초래합니다. 또한 연결 방식은 확장성이 낮습니다: 컨텍스트 길이에 따라 계산 비용이 제곱적으로 증가하며, 이는 시각적 데이터가 포함된 시각적 질문 답변 (Visual Question Answering) 과 같은 경우에 특히 심화되는 문제입니다. 더 깊은 리트리벌로 제공되는 향상된 recall(검색 회수율) 을 모델이 활용하지 못하게 함으로써 성능을 제한하는 등 이러한 문제를 완화하기 위한 컨텍스트 길이 제한 시도는 오히려 성능에 제약을 가할 수 있습니다. 우리는 언어 모델이 단일 결합된 컨텍스트가 아닌 개별 리트리브드 문서에 조건부 (conditioned) 로 작용하도록 하는 RAG 프레임워크인 베이지안 앙상블 리트리벌 오거멘티드 제너레이션 (BERAG) 과 베이지안 앙상블 파인튜닝 (BEFT) 을 제안합니다. BERAG 은 문서 사후 확률 (document posterior probabilities) 을 앙상블 가중치로 취급하며, 생성 과정에서 베이즈 정리 (Bayes' rule) 를 사용하여 토큰 단위로 이를 업데이트합니다. 이 접근법은 확률적 재순위화 (probabilistic re-ranking), 병렬 메모리 사용, 그리고 문서 기여도의 명확한 귀속을 가능하게 하여 대규모 문서 컬렉션에 적합합니다. 우리는 BERAG 과 BEFT 를 주로 긴且不완전한 리트리벌 목록에서 추론해야 하는 지식 기반 시각적 질문 답변 (knowledge-based visual question answering) 작업에서 평가했습니다. 결과는 표준 RAG 대비 상당한 개선을 보여주었으며, Document Visual Question Answering 과 다중 모달 needle-in-a-haystack 벤치마크에서 특히 강력한 성능 향상을 달성했습니다. 또한 BERAG 이 lost-in-the-middle'' 효과를 완화한다는 것을 입증했습니다. 문서 사후 확률은 불충분한 grounding(지정) 을 감지하고 deflection(방어/전환) 을 트리거하는 데 사용될 수 있으며, 문서 프루닝 (document pruning) 은 표준 RAG 보다 빠른 디코딩을 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

BERAG: 지식 기반 시각적 질문 답변을 위한 베이지안 앙상블 리트리벌 오거멘티드 제너레이션

요약

핵심 포인트

댓글