본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 05. 14:06

음성 번역 오류의 자동 레이블링 (Automatic Labelling of Speech Translation Errors)

요약

음성 번역(ST) 시스템의 신뢰도를 높이기 위해 오류를 자동으로 레이블링하는 STEL 방법론을 제안합니다. 어노테이션 프로토콜과 데이터셋을 구축하여 기존 텍스트 전용 및 멀티모달 LLM의 성능을 분석했습니다.

핵심 포인트

  • 음성 번역 오류 레이블링(STEL) 방법론 제안
  • XCOMET 및 Qwen2.5-Omni의 STEL 수행 능력 분석
  • 직접적인 음성 처리의 필수성 확인
  • 텍스트 전용과 음성 처리 시스템의 상호 보완적 역할 발견

음성 번역 (Speech Translation, ST) 시스템의 오류는 ST 시스템의 신뢰도를 떨어뜨리며 심각한 결과를 초래할 수 있습니다. 하지만 현재 음성 번역의 신뢰도 및 품질 추정 (Quality Estimation)을 평가하기 위한 확립된 방법론은 존재하지 않습니다. 이 방향으로의 진전을 시작하기 위해, 우리는 음성 번역 오류 레이블링 (Speech Translation Error Labelling, STEL)을 제안합니다. 우리는 어노테이션 프로토콜 (Annotation Protocol), 소규모의 실제 엔드 투 엔드 (End-to-End) 평가 데이터셋을 구축하였으며, 기존의 텍스트 전용 (Text-only) 시스템과 음성 처리 (Speech-processing) 시스템이 STEL 작업을 어떻게 수행하는지 분석합니다. 연구 결과에 따르면, 텍스트 전용인 XCOMET와 멀티모달 거대언어모델 (Multimodal LLM)인 Qwen2.5-Omni는 인간 정밀도의 약 절반 수준으로 STEL 작업을 수행할 수 있음을 보여줍니다. 또한 우리는 STEL 작업을 수행하기 위해서는 직접적인 음성 처리가 필수적이며, 현재의 텍스트 전용 시스템과 음성 처리 시스템이 ST에서 번역 전용 오류 (Translation-only errors)와 음성 처리 오류 (Speech-processing errors)를 레이블링하는 데 있어 상호 보완적이라는 사실을 발견했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0