arXiv논문2026. 06. 15. 04:03

X-MADAM-RAG: 검색 증강 생성 (RAG)에서의 중국어-영어 증거 충돌 진단 및 처리

요약

다국어 RAG 환경에서 발생하는 중국어와 영어 증거 간의 충돌 문제를 진단하고 처리하는 X-MADAM-RAG 프레임워크를 제안합니다. 새로운 벤치마크인 X-RAMDocs-ZHEN을 통해 증거 충돌 상황에서의 모델 성능과 한계를 심층 분석했습니다.

핵심 포인트

다국어 RAG 시스템 내 상충하는 증거 문제를 다루는 X-RAMDocs-ZHEN 벤치마크 구축
해석 가능한 파이프라인인 X-MADAM-RAG를 통한 증거 충돌 진단 및 처리
템플릿 규칙성에 의존하는 추출 방식의 한계와 스트레스 테스트를 통한 검증
문서 수준의 추출 단계가 RAG 성능의 주요 병목 구간임을 확인

검색 증강 생성 (Retrieval-augmented generation, RAG) 시스템은 단순히 노이즈가 섞인 증거뿐만 아니라 서로 모순되는 증거를 받을 수도 있습니다. 이 문제는 다국어 환경에서 특히 두드러지는데, 검색된 중국어 및 영어 증거가 서로 호환되지 않는 답변 후보를 지지할 수 있기 때문입니다. 우리는 RAG의 증거 충돌을 진단하기 위해 RAMDocs에서 파생된 통제된 중국어-영어 벤치마크인 X-RAMDocs-ZHEN을 통해 이 문제를 연구합니다. 이 벤치마크는 단일 언어 지원, 이중 언어 일치, 역전된 충돌 방향, 선택적 노이즈를 포함한 충돌 등 6가지 균형 잡힌 조건에 걸쳐 300개의 예시를 포함하고 있습니다. 우리는 더 나아가 증거 처리를 문서별 후보 추출 (per-document candidate extraction), 가시적 증거 복구 (visible-evidence repair), 결정론적 후보 그룹화 (deterministic candidate grouping), 충돌 인지 집계 (conflict-aware aggregation)로 분해하는 해석 가능한 파이프라인인 X-MADAM-RAG를 조사합니다. Qwen2.5-7B-Instruct를 사용한 원래의 통제된 벤치마크에서 X-MADAM-RAG는 0.9667의 엄격한 정확도 (strict accuracy)와 0.9767의 충돌 인지 성공률 (conflict-aware success)을 달성하여, 증거 정규화된 단일 호출 (evidence-normalized single-call) 베이스라인을 능가했습니다. 그러나 제로 호출 규칙 전용 추출기 (zero-call rule-only extractor)가 동일한 벤치마크에서 1.0000에 도달함으로써 강력한 템플릿 규칙성을 드러냈습니다. 이 한계를 조사하기 위해, 우리는 후보 문자열은 유지하면서 명시적인 답변 템플릿을 제거한 결정론적 자연화 스트레스 테스트 (deterministic naturalized stress test)를 구축했습니다. 100개 샘플의 하위 집합에서 규칙 전용 추출은 0.0000으로 떨어졌으나, X-MADAM-RAG 또한 엄격한 정확도가 0.3000으로 하락하여 단순(naive) 및 증거 정규화된 베이스라인보다 낮은 성능을 보였습니다. 특권 오라클 (privileged oracle)은 완벽한 성능을 유지했으며, 이는 문서 수준의 추출이 주요 병목 구간임을 나타냅니다. 이러한 발견은 X-RAMDocs-ZHEN과 X-MADAM-RAG를 일반적인 환각 탐지나 자연스러운 검색에 대한 강건성의 증거라기보다, 통제된 증거 충돌을 위한 진단 도구로 정의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

X-MADAM-RAG: 검색 증강 생성 (RAG)에서의 중국어-영어 증거 충돌 진단 및 처리

요약

핵심 포인트

댓글