arXiv논문2026. 06. 18. 11:46

SHIFT: 다국어 정보 검색 (MLIR)을 위한 인덱스 측면 특징 변환 기반의 의미론적 조화

요약

다국어 정보 검색(MLIR)에서 발생하는 언어 편향 문제를 해결하기 위한 새로운 방법론인 SHIFT를 제안합니다. SHIFT는 학습이 필요 없는 방식으로 인덱싱 단계에서 언어별 오프셋을 교정하여 검색 성능을 향상시킵니다.

핵심 포인트

다국어 밀집 검색 모델의 언어 편향 문제 해결
학습이 필요 없는(Training-free) SHIFT 방법론 제안
상대적 언어 벡터를 활용한 문서 임베딩 오프셋 교정
4개 벤치마크를 통해 언어 편향 완화 및 성능 향상 입증

방대한 다국어 코퍼스 (Multilingual Corpora)의 급격한 확장과 함께, 다국어 정보 검색 (Multilingual Information Retrieval, MLIR)은 글로벌 정보 접근을 위한 핵심 기술로 부상했습니다. MLIR은 사용자가 단일 언어 쿼리 (Query)를 사용하여 다국어 텍스트 컬렉션에서 의미론적으로 관련 있는 문서를 검색할 수 있게 합니다. 그러나 최근의 다국어 밀집 검색 (Multilingual Dense Retrieval) 모델들은 종종 쿼리와 동일한 언어로 된 문서에 강한 선호도를 보이는 경향이 있습니다. 이는 심각한 언어 편향 (Language Bias)으로 이어지며, 다른 언어의 문서가 더 의미론적으로 관련 있는 정보를 포함하고 있음에도 불구하고 상위 순위 결과가 특정 언어의 문서들로 점유되는 현상을 초래합니다. 이 문제를 해결하기 위해, 우리는 인덱싱 (Indexing) 단계에서 적용 가능한 학습이 필요 없는 (Training-free) 방법론인 SHIFT를 제안합니다. 구체적으로, SHIFT는 병렬 번역 쌍 (Parallel Translation Pairs)을 활용하여 소스 언어 (Source Language)에 대한 각 타겟 언어 (Target Language)의 상대적 언어 벡터 (Relative Language Vector)를 추정합니다. 이후, SHIFT는 인덱싱 과정에서 문서 임베딩 (Document Embeddings)으로부터 이 상대적 언어 벡터를 차감함으로써 언어별 오프셋 (Language-specific Offset)을 교정합니다. 4개의 MLIR 벤치마크와 다양한 밀집 검색 모델에 걸친 포괄적인 평가를 통해, SHIFT가 언어 편향을 효과적으로 완화하고 MLIR 성능을 향상시킬 수 있음을 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SHIFT: 다국어 정보 검색 (MLIR)을 위한 인덱스 측면 특징 변환 기반의 의미론적 조화

요약

핵심 포인트

댓글