arXiv논문2026. 06. 03. 12:12

IWSLT 2026 제출용: 동시 음성 번역을 위한 소형 오프라인 모델

요약

IWSLT 2026 제출을 위해 개발된 Canary 모델은 AlignAtt 정책을 활용하여 동시 음성-텍스트 번역을 구현합니다. 1B 파라미터 규모의 소형 모델임에도 불구하고 저지연 및 고지연 환경 모두에서 기존 베이스라인 대비 뛰어난 번역 품질을 보여줍니다.

핵심 포인트

AlignAtt 정책을 통한 동시 음성-텍스트 번역 구현
1B 파라미터 규모의 효율적인 소형 모델 설계
저지연 및 고지연 환경에서 높은 번역 성능 입증
25개 출발어 및 25개 도착어 지원하는 다국어 모델

우리는 최첨단 정책인 AlignAtt를 사용하여 오프라인 직접 음성-텍스트 번역 (direct speech-to-text translation) 모델인 Canary를 통해 동시 번역 (simultaneous translation) 기능을 구현하였으며, 이를 체코어에서 영어로, 그리고 영어에서 독일어 및 이탈리아어로 진행되는 IWSLT 2026 동시 음성 번역 (Simultaneous Speech Translation) 공유 과제에 제출합니다. 우리 시스템의 강점은 다음과 같습니다: (1) 높은 번역 품질: 연산량을 고려하지 않은 시뮬레이션 (computationally unaware simulations) 환경에서 저지연 (low-latency) 및 고지연 (high-latency) 영역 모두에서 유사한 크기의 베이스라인 (baselines) 모델보다 뛰어난 성능을 보입니다; (2) 낮은 연산 요구 사항: 모델의 파라미터 (parameters) 수가 1B에 불과합니다; (3) 다국어 지원: 25개의 출발어 (source languages)와 25개의 도착어 (target languages)를 지원합니다.

AI 자동 생성 콘텐츠

원문 바로가기

IWSLT 2026 제출용: 동시 음성 번역을 위한 소형 오프라인 모델

요약

핵심 포인트

댓글