본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 03. 11:05

음성-음성 번역 (Speech-to-Speech Translation) 모델 벤치마킹

요약

음성-음성 번역(S2ST) 모델의 통일된 평가를 위한 벤치마킹 프레임워크인 COMPASS를 제안합니다. 46개의 지표를 통합하여 아키텍처별 강점을 체계적으로 비교하며, 효율적인 평가를 위한 지표 최적화 방안을 제시합니다.

핵심 포인트

  • S2ST 평가를 위한 통합 프레임워크 COMPASS 소개
  • 자연스러움과 화자 보존 측면에서 모델 간 큰 격차 확인
  • 상관관계 필터링을 통해 평가 시간을 2.5배 단축 가능
  • 단일 지표 사용 시 시스템 품질을 오판할 위험 경고

음성-음성 번역 (Speech-to-speech translation, S2ST) 기술은 빠르게 발전해 왔으나, 오프라인 평가에는 통일된 프로토콜이 부족합니다. 기존 연구들은 서로 중복되지 않는 지표(metric) 하위 집합을 보고하고 있어 직접적인 비교가 불가능한 상황입니다. 본 연구에서는 8개 차원에 걸쳐 46개의 지표를 통합한 통일되고 재현 가능한 벤치마킹 프레임워크인 COMPASS를 소개합니다. 우리는 이를 FLEURS 및 CVSS의 1,248개 모델-언어 구성에 적용하였으며, 이는 10개의 언어 쌍에 걸쳐 계층형 (cascaded) 및 엔드투엔드 (end-to-end) 아키텍처를 모두 포함합니다. 아키텍처들은 상호 보완적인 강점을 보입니다. 자연스러움 (naturalness)과 화자 보존 (speaker preservation) 측면에서는 최상위 모델과 최하위 모델 간의 격차가 30%를 초과하지만, 번역 품질 (translation quality) 측면에서는 격차가 불과 몇 포인트 내외로 유지됩니다. 따라서 단일 지표를 통한 순위 산정은 시스템의 품질을 체계적으로 잘못 나타낼 수 있습니다. 상관관계 필터링 (Correlation filtering)을 통해 46개의 지표를 방향당 10개로 줄였으며, 세 가지 축은 X$ o$EN 및 EN$ o$X 간에 서로 다른 지표를 필요로 합니다 (예: TER/UTMOS 대 ChrF++/NISQA-MOS). 이러한 하위 집합들은 평가 시간을 약 2.5배 단축하면서도 순위를 보존합니다 (Spearman's $ρ>0.80$). 더빙, 팟캐스트, 의료 도메인에 걸친 인간 검증 결과, 단독 MOS 예측기는 청취자 선호도를 예측하는 데 실패하는 반면, 상위 도메인 특화 지표들은 인간의 판단과 높은 상관관계($ρ ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0