기계 번역 하에서 텍스트 유사성의 불변성: EU eTranslation 서비스 기반 정치 선언문 코퍼스 증거
요약
본 연구는 EU eTranslation 서비스를 활용하여 28개 언어로 번역된 대규모 정치 선언문 코퍼스를 분석함으로써, 기계 번역 환경에서 단락 임베딩 간의 의미적 유사성이 얼마나 안정적인지(불변한지)를 조사합니다. 기존 방식처럼 직접적인 의미 변화를 측정하는 대신, 여러 임베딩 모델 간의 쌍대 유사성 관계가 유지되는 '불변성'을 핵심 지표로 사용합니다. 이 프레임워크는 언어별 비불우적 검정을 통해 번역 과정이 임베딩 선택에 미치는 영향을 평가하며, 특정 언어에서 높은 번역 불변성을 보이는지 여부를 식별하는 데 유용합니다.
핵심 포인트
- 기계 번역 환경에서의 텍스트 유사성(임베딩 코사인 유사도)의 '불변성'을 측정하는 새로운 프레임워크를 제시했습니다.
- 직접적인 의미 변화 대신, 여러 임베딩 모델 간의 쌍대 유사성 관계 안정성을 핵심 지표로 사용합니다.
- 이 방법론은 언어별 비불우적 검정(non-inferiority testing)을 통해 번역 과정과 임베딩 선택의 상호작용을 평가할 수 있습니다.
- 실제 데이터 적용 결과, 28개 언어 중 일부 언어는 높은 번역 불변성을 보였고, 일부 언어에서는 감지 가능한 왜곡이 발견되었습니다.
우리는 EU eTranslation 서비스를 통해 28 가지 언어로 번역된 2,800 개 이상의 정치적 정당 플랫폼을 기반으로 하여 기계 번역 하에서 단락 임베딩 간의 코사인 유사성이 얼마나 불변인지를 조사합니다. 직접적인 번역에 의한 의미적 변화를 측정하는 대신, 임베딩 모델 간 쌍대 유사성 관계의 안정성을 측정하고 원어 텍스트에서의 모델 간 불일치를 교정된 불변성 임계값으로 사용합니다. 이는 번역이 임베딩 선택과 어떻게 상호작용하는지에 대한 네 가지 가설에 대해 언어별 비불우적 (non-inferiority) 검정을 제공합니다. 이 프레임워크는 코퍼스 및 파이프라인 무관하며 다운스트림 작업에 자연스럽게 확장됩니다. 우리의 데이터에 적용하면 번역 불변성이 있는 10 개 언어와 감지 가능한 왜곡이 있는 4 개 언어를 식별합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기