음성-음성 번역 (Speech-to-Speech Translation) 모델 벤치마킹

요약

음성-음성 번역(S2ST) 모델의 통일된 평가를 위한 벤치마킹 프레임워크인 COMPASS를 제안합니다. 46개의 지표를 통합하여 아키텍처별 강점을 체계적으로 비교하며, 효율적인 평가를 위한 지표 최적화 방안을 제시합니다.

핵심 포인트

S2ST 평가를 위한 통합 프레임워크 COMPASS 소개
자연스러움과 화자 보존 측면에서 모델 간 큰 격차 확인
상관관계 필터링을 통해 평가 시간을 2.5배 단축 가능
단일 지표 사용 시 시스템 품질을 오판할 위험 경고

음성-음성 번역 (Speech-to-speech translation, S2ST) 기술은 빠르게 발전해 왔으나, 오프라인 평가에는 통일된 프로토콜이 부족합니다. 기존 연구들은 서로 중복되지 않는 지표(metric) 하위 집합을 보고하고 있어 직접적인 비교가 불가능한 상황입니다. 본 연구에서는 8개 차원에 걸쳐 46개의 지표를 통합한 통일되고 재현 가능한 벤치마킹 프레임워크인 COMPASS를 소개합니다. 우리는 이를 FLEURS 및 CVSS의 1,248개 모델-언어 구성에 적용하였으며, 이는 10개의 언어 쌍에 걸쳐 계층형 (cascaded) 및 엔드투엔드 (end-to-end) 아키텍처를 모두 포함합니다. 아키텍처들은 상호 보완적인 강점을 보입니다. 자연스러움 (naturalness)과 화자 보존 (speaker preservation) 측면에서는 최상위 모델과 최하위 모델 간의 격차가 30%를 초과하지만, 번역 품질 (translation quality) 측면에서는 격차가 불과 몇 포인트 내외로 유지됩니다. 따라서 단일 지표를 통한 순위 산정은 시스템의 품질을 체계적으로 잘못 나타낼 수 있습니다. 상관관계 필터링 (Correlation filtering)을 통해 46개의 지표를 방향당 10개로 줄였으며, 세 가지 축은 X$ o$EN 및 EN$ o$X 간에 서로 다른 지표를 필요로 합니다 (예: TER/UTMOS 대 ChrF++/NISQA-MOS). 이러한 하위 집합들은 평가 시간을 약 2.5배 단축하면서도 순위를 보존합니다 (Spearman's $ρ>0.80$). 더빙, 팟캐스트, 의료 도메인에 걸친 인간 검증 결과, 단독 MOS 예측기는 청취자 선호도를 예측하는 데 실패하는 반면, 상위 도메인 특화 지표들은 인간의 판단과 높은 상관관계($ρ ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{ } ext{

AI 자동 생성 콘텐츠

원문 바로가기

음성-음성 번역 (Speech-to-Speech Translation) 모델 벤치마킹

요약

핵심 포인트

댓글