CORAL: 문화적 정렬을 위한 다국어 RAG를 위한 적응형 검색 루프
요약
CORAL(COntext-aware Retrieval with Agentic Loop)은 기존 다국어 RAG 시스템이 가진 문화적 맥락 및 지역적 불일치 문제를 해결하기 위해 제안된 적응형 검색 방법론입니다. 이 방법은 증거의 품질을 기반으로 리트리벌 코퍼스와 쿼리를 반복적으로 개선하는 루프를 포함합니다. 이를 통해 기존 mRAG 방식보다 더 높은 문화적 관련성을 갖춘 답변 생성이 가능하며, 저자원 언어 QA 벤치마크에서 상당한 성능 향상을 입증했습니다.
핵심 포인트
- 기존 다국어 RAG(mRAG)는 고정된 리트리벌 공간에 의존하여 문화적/지역적 맥락의 불일치를 해결하기 어렵습니다.
- CORAL은 증거 품질을 기반으로 코퍼스와 쿼리를 반복적으로 개선하는 적응형 검색 루프를 도입했습니다.
- 핵심 과정은 코퍼스 선택, 문서 리트리벌, 문화적 정렬을 위한 증거 비판, 그리고 충분성 확인 및 재작성(Iteration)입니다.
- CORAL은 저자원 언어 QA 벤치마크에서 기존 최고 성능 모델 대비 최대 3.58%p의 정확도 향상을 달성했습니다.
다국어 리트리벌-오거멘티드 제너레이션 (mRAG) 은 일반적으로 고정된 리트리벌 공간 내에서 구현되며, 주로 쿼리 또는 문서 번역이나 다국어 임베딩 벡터 표현을 통해 이루어집니다. 그러나 이 접근 방식은 문화적 기반의 쿼리의 경우 부적절할 수 있으며, 검색 조건 불일치가 발생할 수 있습니다. 강력한 리트리버와 제너레이터조차도 부적절한 언어적 또는 지역적 맥락에서 증거를 소스화할 때 문화적으로 관련성 있는 답변을 생성하는 데 어려움을 겪을 수 있습니다. 이를 위해 우리는 CORAL (COntext-aware Retrieval with Agentic Loop) 을 소개합니다. 이는 증거의 품질에 기반하여 리트리벌 공간 (corpora) 과 리트리벌 프로브 (query) 를 모두 반복적으로 개선할 수 있도록 하는 mRAG를 위한 적응형 검색 방법론입니다. 전체 과정은 다음과 같습니다: (1) 코퍼스 선택, (2) 문서 리트리벌, (3) 관련성과 문화적 정렬을 위한 증거 비판, 그리고 (4) 충분성 확인. 만약 리트리벌된 문서가 쿼리를 올바르게 답변하기에 부족하다면, 시스템은 (5) 코퍼스를 다시 선택하고 쿼리를 재작성합니다. 두 가지 문화적 QA 벤치마크에서 CORAL 은 가장 강력한 베이스라인에 비해 저자원 언어에서 최대 3.58%p의 정확도 향상을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기