기계 번역 하에서 텍스트 유사성의 불변성: EU eTranslation 서비스 기반 정치 선언문 코퍼스 증거

우리는 EU eTranslation 서비스를 통해 28 가지 언어로 번역된 2,800 개 이상의 정치적 정당 플랫폼을 기반으로 하여 기계 번역 하에서 단락 임베딩 간의 코사인 유사성이 얼마나 불변인지를 조사합니다. 직접적인 번역에 의한 의미적 변화를 측정하는 대신, 임베딩 모델 간 쌍대 유사성 관계의 안정성을 측정하고 원어 텍스트에서의 모델 간 불일치를 교정된 불변성 임계값으로 사용합니다. 이는 번역이 임베딩 선택과 어떻게 상호작용하는지에 대한 네 가지 가설에 대해 언어별 비불우적 (non-inferiority) 검정을 제공합니다. 이 프레임워크는 코퍼스 및 파이프라인 무관하며 다운스트림 작업에 자연스럽게 확장됩니다. 우리의 데이터에 적용하면 번역 불변성이 있는 10 개 언어와 감지 가능한 왜곡이 있는 4 개 언어를 식별합니다.

Insights

기계 번역 하에서 텍스트 유사성의 불변성: EU eTranslation 서비스 기반 정치 선언문 코퍼스 증거

요약

핵심 포인트

댓글

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인