IWSLT 2026 Instruction-following 쇼트 트랙에 대한 NAVER LABS Europe의 제출물

본 논문에서는 IWSLT 2026의 지시 이행(instruction-following) 음성 처리 쇼트 트랙(short track)에 대한 NAVER LABS Europe의 제출물을 설명합니다. 우리는 제약된 환경(constrained setting)에 다시 한번 참여하여, 영어 음성을 중국어, 이탈리아어 및 독일어로 자동 음성 인식(ASR), 음성 번역(ST), 그리고 음성 질의응답(SQA)을 공동으로 수행할 수 있는 시스템을 개발했습니다. 작년 쇼트 트랙에서 1위를 차지했던 이전 제출물을 바탕으로, 우리는 음성 프로젝터(speech projector)를 SpeechMapper로 교체함으로써 다단계 학습 파이프라인(multi-stage training pipeline)을 업데이트했습니다. SpeechMapper는 ASR 데이터만을 사용하여 음성-LLM 임베딩 프로젝터(speech-to-LLM embedding projector)를 학습하는 방법입니다. 또한, 인공적으로 생성된 과학 발표로 구성된 합성 SQA 데이터셋인 fakACL을 소개합니다. 이 데이터셋은 LLM 백본(backbone)에 프롬프트를 입력하고, 생성된 강연을 분할하며, SeamlessM4T-large-v2를 사용하여 음성을 합성함으로써 구축되었습니다. 개선된 음성 투영(speech projection) 메커니즘과 도메인 특화 합성 데이터의 결합을 통해, 우리 모델은 훨씬 더 컴팩트하고 더 약한 LLM 백본에 의존하면서도 작년의 최고 쇼트 트랙 시스템보다 뛰어난 성능을 발휘할 수 있었습니다. 올해의 결과로 우리 시스템은 전체 쇼트 트랙 순위에서 공동 1위에 올랐습니다.

Insights

IWSLT 2026 Instruction-following 쇼트 트랙에 대한 NAVER LABS Europe의 제출물

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실