본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 17. 11:53

IWSLT 2026 동시 음성 번역(Simultaneous Speech Translation) 태스크를 위한 MLLP-VRAIN UPV 시스템

요약

IWSLT 2026 동시 음성 번역 태스크를 위한 MLLP-VRAIN UPV 시스템을 소개합니다. Parakeet 및 Qwen 3.5 모델을 활용한 캐스케이드 솔루션과 RAG 메커니즘을 통해 품질과 지연 시간 간의 최적의 균형을 달성했습니다.

핵심 포인트

  • Parakeet 및 Qwen 3.5 기반의 견고한 캐스케이드 솔루션 구축
  • RAG를 활용한 ASR 워드 부스팅 및 도메인 특화 문맥 제공
  • 품질-지연 시간 트레이드오프 최적화를 위한 적응형 정책 탐구
  • MCIF En→De 테스트 세트에서 XCOMET-XL 기준 상당한 품질 향상 달성

본 연구는 IWSLT 2026 동시 음성 번역 (Simultaneous Speech Translation, SimulST) 트랙의 공유 태스크(shared task)에 참여한 MLLP-VRAIN 연구 그룹의 활동을 기술합니다. 우리의 제출물은 최근 출시된 Parakeet 및 Qwen 3.5 모델을 활용하여, 적응형 "블랙박스 (black-box)" 정책을 통해 긴 형태의 SimulST를 위한 견고한 캐스케이드 (cascaded) 솔루션을 구축합니다. 우리는 더 나은 품질-지연 시간 트레이드오프 (quality-latency trade-offs)를 달성하기 위해 이러한 정책의 완화 (relaxations)를 탐구합니다. 작년과 비교하여, 우리는 모든 언어 방향에 참여합니다. 이에 더해, En$\rightarrow${De, It, Zh} 방향의 경우, 생성 과정을 가이드하고 도메인 특화 문맥 (domain-specific context)으로 시스템을 풍부하게 하기 위해 ASR 워드 부스팅 (word-boosting)과 오프라인 사전 번역 예시 (offline pre-translated exemplars)의 RAG (Retrieval-Augmented Generation) 메커니즘을 결합하여 올해의 새로운 문맥 (context) 트랙에도 참여합니다. 마지막으로, 우리 시스템의 상세한 지연 시간 (latency) 분석을 제공합니다. 작년과 비교했을 때, MCIF En$\rightarrow$De 테스트 세트에서의 결과는 +5.82 XCOMET-XL의 상당한 품질 향상을 보여줍니다. 우리의 문맥 (context) 트랙 처리는 성능을 +1.03 추가로 향상시킵니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0