arXiv논문2026. 06. 04. 13:17

다국어 장문 음성 지시 이행 (Multilingual Long-Form Speech Instruction Following): IWSLT

요약

IWSLT의 지시 이행 트랙을 위해 KIT 모델의 장문 음성 지시 이행 성능을 제시합니다. 데이터 증강 파이프라인을 통해 100만 개 이상의 장문 학습 데이터를 생성했으며, 가능도 기반 재순위화의 한계를 MBR 디코딩으로 해결하는 방법을 제안합니다.

핵심 포인트

데이터 증강을 통한 100만 개 이상의 장문 학습 데이터 생성
알려지지 않은 작업에 대한 모델의 일반화 능력 검증
가능도 기반 재순위화의 의미론적 성능 저하 문제 식별
MBR 디코딩을 통한 장문 추론 성능 개선

대규모 언어 모델 (Large Language Models, LLM)의 등장과 함께, 단일 작업 (single-task) 및 토큰 기반 다중 작업 (token-based multi-task) 모델은 자연어 프롬프트로부터 작업과 대상 언어를 암시적으로 추론하는 지시 이행 (instruction-based) 시스템으로 진화했습니다. 이러한 추세는 IWSLT의 지시 이행 트랙 (Instruction Following Track)에 반영되어 있으며, 올해는 알려지지 않은 서프라이즈 작업 (unknown surprise task)을 포함한 새로운 작업들을 도입하여 기존 작업에 대한 과적합 (overfitting)에 맞서는 진정한 도전 과제를 제시했습니다. 우리는 제약이 없는 설정 (unconstrained setting)에서의 장문 및 단문 지시 이행 (Long and Short Instruction Following) 트랙에 제출하는 KIT의 결과물을 제시합니다. 우리의 접근 방식은 세그먼트 연결 (segment concatenation), LLM 기반 레이블 생성 (LLM-based label generation), 그리고 교차 언어 번역 (cross-lingual translation)을 통해 단문 코퍼스 (short-form corpora)를 장문 학습 데이터 (long-form training data)로 변환하는 일반적인 데이터 증강 파이프라인을 결합하며, 이를 통해 6개 작업과 4개 언어에 걸쳐 100만 개 이상의 인스턴스를 생성했습니다. 나아가 우리는 가능도 기반 재순위화 (likelihood-based re-ranking)가 자동 음성 인식 (ASR)에는 매우 효과적이지만, 전체적인 장문 추론 (holistic long-form inference)보다는 세그먼트된 오디오 처리로부터 생성된 후보를 거짓으로 선택함으로써 의미론적 작업 (semantic tasks)의 성능을 체계적으로 저하시킨다는 점을 보여줍니다. 이러한 실패 모드 (failure mode)는 가능도 (likelihood)를 최소 베이즈 위험 (Minimum Bayes Risk, MBR) 디코딩과 결합함으로써 해결됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

다국어 장문 음성 지시 이행 (Multilingual Long-Form Speech Instruction Following): IWSLT

요약

핵심 포인트

댓글