arXiv논문2026. 06. 05. 14:06

음성 번역 오류의 자동 레이블링 (Automatic Labelling of Speech Translation Errors)

요약

음성 번역(ST) 시스템의 신뢰도를 높이기 위해 오류를 자동으로 레이블링하는 STEL 방법론을 제안합니다. 어노테이션 프로토콜과 데이터셋을 구축하여 기존 텍스트 전용 및 멀티모달 LLM의 성능을 분석했습니다.

핵심 포인트

음성 번역 오류 레이블링(STEL) 방법론 제안
XCOMET 및 Qwen2.5-Omni의 STEL 수행 능력 분석
직접적인 음성 처리의 필수성 확인
텍스트 전용과 음성 처리 시스템의 상호 보완적 역할 발견

음성 번역 (Speech Translation, ST) 시스템의 오류는 ST 시스템의 신뢰도를 떨어뜨리며 심각한 결과를 초래할 수 있습니다. 하지만 현재 음성 번역의 신뢰도 및 품질 추정 (Quality Estimation)을 평가하기 위한 확립된 방법론은 존재하지 않습니다. 이 방향으로의 진전을 시작하기 위해, 우리는 음성 번역 오류 레이블링 (Speech Translation Error Labelling, STEL)을 제안합니다. 우리는 어노테이션 프로토콜 (Annotation Protocol), 소규모의 실제 엔드 투 엔드 (End-to-End) 평가 데이터셋을 구축하였으며, 기존의 텍스트 전용 (Text-only) 시스템과 음성 처리 (Speech-processing) 시스템이 STEL 작업을 어떻게 수행하는지 분석합니다. 연구 결과에 따르면, 텍스트 전용인 XCOMET와 멀티모달 거대언어모델 (Multimodal LLM)인 Qwen2.5-Omni는 인간 정밀도의 약 절반 수준으로 STEL 작업을 수행할 수 있음을 보여줍니다. 또한 우리는 STEL 작업을 수행하기 위해서는 직접적인 음성 처리가 필수적이며, 현재의 텍스트 전용 시스템과 음성 처리 시스템이 ST에서 번역 전용 오류 (Translation-only errors)와 음성 처리 오류 (Speech-processing errors)를 레이블링하는 데 있어 상호 보완적이라는 사실을 발견했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

음성 번역 오류의 자동 레이블링 (Automatic Labelling of Speech Translation Errors)

요약

핵심 포인트

댓글