본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 11:11

IWSLT 2026 Instruction Following을 위한 FBK의 Long-form SpeechLLMs

요약

IWSLT 2026의 음성 지시 이행(Instruction Following) 태스크를 위한 FBK의 Long-form SpeechLLMs 연구를 소개합니다. 단문 및 장문 음성 지시 이행 성능을 분석하며, 특히 장문 생성 시의 안정성을 높이기 위한 분할 방식과 새로운 평가 지표인 HIFS를 제안합니다.

핵심 포인트

  • 단문 트랙 MCIF에서 2.0708의 SIFS 점수 달성
  • 장문 트랙 성능 최적화를 위한 30초 고정 분할 방식 제안
  • 장문 생성의 불안정성을 측정하기 위한 HIFS 지표 도입
  • 장문 확장 시에도 단문 수행 능력은 대부분 유지됨을 확인

본 논문은 IWSLT 2026 Instruction Following 공유 태스크(shared task)에 제출하는 우리의 연구를 설명합니다. SpeechLLMs는 제약된 환경 하에서 단문(short-form) 및 장문(long-form) 음성 지시 이행(speech instruction following)을 위해 개발되었습니다. 단문 트랙(short track)의 경우, MCIF에서 2.0708의 SIFS 점수를 기록하며 강력한 성능을 달성했습니다. 장문 트랙(long track)의 경우, 세 가지 음성 분할(speech segmentation) 방법을 탐색하였으며, 불안정한 장문 생성 문제를 고려하기 위해 HIFS 점수를 도입했습니다. 실험 결과, 고정된 30초 분할 방식이 가장 견고한 장문 성능을 제공하며 2.0663의 가장 높은 HIFS 점수를 달성함을 보여주었습니다. 추가 분석에 따르면, 환각(hallucination)은 주로 생성된 출력물에서의 반복적인 삽입 형태로 나타나 ASR 및 SSUM에 상당한 영향을 미치지만, 장문 확장 후에도 단문 능력은 대부분 유지됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0