arXiv논문2026. 06. 15. 03:50

PiDA: 강건한 베트남어 음성 번역을 위한 음성 정보 기반 데이터 증강

요약

베트남어 음성 번역(ST) 시스템의 ASR 오류 전파 문제를 해결하기 위한 새로운 데이터 증강 기법인 PiDA를 제안합니다. 음성적 유사성을 기반으로 단어를 교체하여 ASR 오류와 유사한 데이터를 생성함으로써 번역 성능을 향상시킵니다.

핵심 포인트

ASR 치환 오류가 음성적 혼동에서 주로 발생함을 규명
음성 단어 임베딩을 활용한 PiDA 데이터 증강 기법 제안
베트남어-영어 번역 성능(BLEU) 최대 2.04점 향상
오류가 있는 ASR 출력에 대한 강건성 확보

계층적 음성 번역 (ST) 시스템은 자동 음성 인식 (ASR)이 부정확한 전사 결과를 출력할 때 오류 전파 (error propagation) 문제를 겪습니다. 본 논문에서는 베트남어 ST를 위한 ASR 오류의 첫 번째 체계적 분류를 제시하며, 치환 오류 (substitution errors)를 음성적 원인에 따라 분류하고 선형 혼합 효과 모델링 (Linear Mixed-Effects Modelling)을 사용하여 이러한 오류가 하위 작업인 신경 기계 번역 (NMT) 성능에 미치는 영향을 정량화합니다. 우리는 대부분의 ASR 치환 오류가 무작위 노이즈보다는 음성적 혼동 (phonetic confusions)에서 발생하며, 이러한 음성적 오류가 ST 품질을 크게 저하시킨다는 점을 확인했습니다. 이러한 발견에 착안하여, 우리는 음성 단어 임베딩 (phonetic word embeddings)을 사용하여 단어를 음성적으로 유사한 대안으로 교체함으로써 ASR과 유사한 오염 (corruptions)을 생성하는 음성 정보 기반 데이터 증강 (Phonetically-Informed Data Augmentation, PiDA)을 제안합니다. PiDA로 증강된 FLEURS 베트남어-영어 데이터셋으로 미세 조정 (Fine-tuning)을 수행한 결과, 오류가 있는 ASR 출력에 대한 번역 성능이 향상되었으며 (표준 미세 조정 대비 최대 +2.04 BLEU), 깨끗한 텍스트 (clean-text)에 대한 성능도 약간 향상되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

PiDA: 강건한 베트남어 음성 번역을 위한 음성 정보 기반 데이터 증강

요약

핵심 포인트

댓글