arXiv논문2026. 06. 26. 11:11

IWSLT 2026 Instruction Following을 위한 FBK의 Long-form SpeechLLMs

요약

IWSLT 2026의 음성 지시 이행(Instruction Following) 태스크를 위한 FBK의 Long-form SpeechLLMs 연구를 소개합니다. 단문 및 장문 음성 지시 이행 성능을 분석하며, 특히 장문 생성 시의 안정성을 높이기 위한 분할 방식과 새로운 평가 지표인 HIFS를 제안합니다.

핵심 포인트

단문 트랙 MCIF에서 2.0708의 SIFS 점수 달성
장문 트랙 성능 최적화를 위한 30초 고정 분할 방식 제안
장문 생성의 불안정성을 측정하기 위한 HIFS 지표 도입
장문 확장 시에도 단문 수행 능력은 대부분 유지됨을 확인

본 논문은 IWSLT 2026 Instruction Following 공유 태스크(shared task)에 제출하는 우리의 연구를 설명합니다. SpeechLLMs는 제약된 환경 하에서 단문(short-form) 및 장문(long-form) 음성 지시 이행(speech instruction following)을 위해 개발되었습니다. 단문 트랙(short track)의 경우, MCIF에서 2.0708의 SIFS 점수를 기록하며 강력한 성능을 달성했습니다. 장문 트랙(long track)의 경우, 세 가지 음성 분할(speech segmentation) 방법을 탐색하였으며, 불안정한 장문 생성 문제를 고려하기 위해 HIFS 점수를 도입했습니다. 실험 결과, 고정된 30초 분할 방식이 가장 견고한 장문 성능을 제공하며 2.0663의 가장 높은 HIFS 점수를 달성함을 보여주었습니다. 추가 분석에 따르면, 환각(hallucination)은 주로 생성된 출력물에서의 반복적인 삽입 형태로 나타나 ASR 및 SSUM에 상당한 영향을 미치지만, 장문 확장 후에도 단문 능력은 대부분 유지됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

IWSLT 2026 Instruction Following을 위한 FBK의 Long-form SpeechLLMs

요약

핵심 포인트

댓글