IWSLT 2026 Instruction-following 쇼트 트랙에 대한 NAVER LABS Europe의 제출물
요약
NAVER LABS Europe이 IWSLT 2026 지시 이행 음성 처리 쇼트 트랙에서 공동 1위를 달성한 연구를 소개합니다. SpeechMapper를 활용한 음성-LLM 임베딩 프로젝터 업데이트와 합성 데이터셋 fakACL을 통해 모델 성능을 극대화했습니다.
핵심 포인트
- SpeechMapper를 통한 다단계 학습 파이프라인 업데이트
- 음성-LLM 임베딩 프로젝터 학습 방식 개선
- 합성 SQA 데이터셋 fakACL 도입 및 구축
- 경량화된 LLM 백본으로도 작년 우승 시스템 상회하는 성능 달성
- IWSLT 2026 쇼트 트랙 전체 공동 1위 기록
본 논문에서는 IWSLT 2026의 지시 이행(instruction-following) 음성 처리 쇼트 트랙(short track)에 대한 NAVER LABS Europe의 제출물을 설명합니다. 우리는 제약된 환경(constrained setting)에 다시 한번 참여하여, 영어 음성을 중국어, 이탈리아어 및 독일어로 자동 음성 인식(ASR), 음성 번역(ST), 그리고 음성 질의응답(SQA)을 공동으로 수행할 수 있는 시스템을 개발했습니다. 작년 쇼트 트랙에서 1위를 차지했던 이전 제출물을 바탕으로, 우리는 음성 프로젝터(speech projector)를 SpeechMapper로 교체함으로써 다단계 학습 파이프라인(multi-stage training pipeline)을 업데이트했습니다. SpeechMapper는 ASR 데이터만을 사용하여 음성-LLM 임베딩 프로젝터(speech-to-LLM embedding projector)를 학습하는 방법입니다. 또한, 인공적으로 생성된 과학 발표로 구성된 합성 SQA 데이터셋인 fakACL을 소개합니다. 이 데이터셋은 LLM 백본(backbone)에 프롬프트를 입력하고, 생성된 강연을 분할하며, SeamlessM4T-large-v2를 사용하여 음성을 합성함으로써 구축되었습니다. 개선된 음성 투영(speech projection) 메커니즘과 도메인 특화 합성 데이터의 결합을 통해, 우리 모델은 훨씬 더 컴팩트하고 더 약한 LLM 백본에 의존하면서도 작년의 최고 쇼트 트랙 시스템보다 뛰어난 성능을 발휘할 수 있었습니다. 올해의 결과로 우리 시스템은 전체 쇼트 트랙 순위에서 공동 1위에 올랐습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기