IWSLT 2026 제출용: 동시 음성 번역을 위한 소형 오프라인 모델
요약
IWSLT 2026 제출을 위해 개발된 Canary 모델은 AlignAtt 정책을 활용하여 동시 음성-텍스트 번역을 구현합니다. 1B 파라미터 규모의 소형 모델임에도 불구하고 저지연 및 고지연 환경 모두에서 기존 베이스라인 대비 뛰어난 번역 품질을 보여줍니다.
핵심 포인트
- AlignAtt 정책을 통한 동시 음성-텍스트 번역 구현
- 1B 파라미터 규모의 효율적인 소형 모델 설계
- 저지연 및 고지연 환경에서 높은 번역 성능 입증
- 25개 출발어 및 25개 도착어 지원하는 다국어 모델
우리는 최첨단 정책인 AlignAtt를 사용하여 오프라인 직접 음성-텍스트 번역 (direct speech-to-text translation) 모델인 Canary를 통해 동시 번역 (simultaneous translation) 기능을 구현하였으며, 이를 체코어에서 영어로, 그리고 영어에서 독일어 및 이탈리아어로 진행되는 IWSLT 2026 동시 음성 번역 (Simultaneous Speech Translation) 공유 과제에 제출합니다. 우리 시스템의 강점은 다음과 같습니다: (1) 높은 번역 품질: 연산량을 고려하지 않은 시뮬레이션 (computationally unaware simulations) 환경에서 저지연 (low-latency) 및 고지연 (high-latency) 영역 모두에서 유사한 크기의 베이스라인 (baselines) 모델보다 뛰어난 성능을 보입니다; (2) 낮은 연산 요구 사항: 모델의 파라미터 (parameters) 수가 1B에 불과합니다; (3) 다국어 지원: 25개의 출발어 (source languages)와 25개의 도착어 (target languages)를 지원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기