arXiv논문2026. 06. 01. 11:02

MIMO: 단일 언어 목적 함수를 통한 다국어 정보 검색 (Multilingual Information Retrieval)

요약

MIMO는 다국어 정보 검색(MLIR) 환경에서 발생하는 언어 클러스터링과 정렬-균일성 트레이드오프 문제를 해결하기 위한 2단계 프레임워크입니다. 영어 의미 공간을 앵커로 활용한 지식 증류와 대조 학습을 결합하여 기존 모델보다 우수한 검색 성능을 제공합니다.

핵심 포인트

MLIR 환경의 언어 클러스터링 및 정렬 문제 해결
영어 의미 공간을 앵커로 사용하는 2단계 프레임워크 제안
지식 증류와 교차 언어 대조 학습의 공동 최적화
기존 베이스라인 및 대규모 기성 모델 대비 경쟁력 입증

다국어 정보 검색 (Multilingual Information Retrieval, MLIR)은 쿼리 (query)와 관련 문서가 혼합 언어 코퍼스 (mixed-language corpus) 내에서 서로 다른 언어로 나타날 수 있는 실제 검색 환경을 반영합니다. 그러나 기존의 임베딩 (embedding) 모델들은 주로 다중 단일 언어 (Multi-Monolingual) 검색에 최적화되어 있으며, MLIR 환경에서는 성능이 저하되는 경우가 많습니다. 또한, 기존의 대조 학습 (contrastive learning)을 MLIR에 직접 적용하면 언어 클러스터링 (language clustering) 현상을 악화시키고, 교차 언어 정렬 (cross-lingual alignment)과 임베딩 균일성 (embedding uniformity) 사이의 트레이드오프 (trade-off) 문제를 드러낼 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 성능이 뛰어난 교사 모델 (teacher model)의 안정적인 영어 의미 공간 (English semantic space)을 앵커 (anchor)로 사용하는 2단계 프레임워크인 MIMO: Multilingual Information Retrieval via Monolingual Objectives를 제안합니다. MIMO는 먼저 지식 증류 (knowledge distillation)를 통해 학생 모델 (student model)의 교차 언어 정렬을 초기화한 다음, 정렬을 유지하면서 검색 판별력을 향상시키기 위해 증류와 교차 언어 대조 학습을 공동으로 최적화합니다. 광범위한 실험을 통해 MIMO가 다양한 MLIR 및 다중 단일 언어 (Multi-Monolingual) 벤치마크에서 기존의 교차 언어 학습 베이스라인 (baselines)보다 일관되게 우수한 성능을 보임을 입증했습니다. 또한 MIMO는 유사하거나 더 큰 파라미터 (parameter) 규모를 가진 기성 모델 (off-the-shelf models)과 비교해도 경쟁력이 있습니다. 나아가, 우리의 교차 언어 정렬-균일성 (Alignment-Uniformity) 분석은 두 손실 함수 (loss) 구성 요소의 뚜렷한 역할을 명확히 하며, 이들의 결합이 정렬과 균일성 사이의 유리한 트레이드오프를 생성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

MIMO: 단일 언어 목적 함수를 통한 다국어 정보 검색 (Multilingual Information Retrieval)

요약

핵심 포인트

댓글