ReNikud: 오디오 지도 학습 기반의 히브리어 자소-음소 변환 (Grapheme-to-Phoneme Conversion)
요약
ReNikud는 모음 표기가 생략되는 히브리어의 특성을 극복하기 위해 오디오 지도 학습을 활용한 새로운 G2P 방법론을 제안합니다. ASR 의사 레이블링과 문자 수준 정렬을 통해 자연스러운 구어 발음을 반영하며, 기존 SOTA 모델보다 뛰어난 성능을 입증했습니다.
핵심 포인트
- 오디오 지도 학습을 통한 약한 지도 학습(Weak supervision) 적용
- ASR 의사 레이블링 파이프라인으로 수동 주석 없이 음소 전사 생성
- 의사 모음화 아키텍처를 통한 문자 수준 정렬 강제
- 기존 히브리어 G2P 및 MILIM 벤치마크에서 SOTA 달성
현대 히브리어의 자소-음소 변환 (Grapheme-to-phoneme, G2P)은 텍스트 음성 변환 (Text-to-speech, TTS)과 같은 응용 분야를 위해 필요하지만, 모음이 대부분 표기되지 않는 히브리어의 아브자드 (abjad) 문자 체계로 인해 상당한 모호성을 유발하므로 구현이 어렵습니다. 표준적인 접근 방식은 먼저 모음 기호 (nikud)를 예측하여 국제 음성 기호 (International Phonetic Alphabet, IPA) 전사를 생성하지만, 여기에는 한계가 있습니다. 즉, 모음 표기 데이터가 부족하고 제작에 많은 노동력이 소요되며, 어휘적 강세 (lexical stress)와 같은 특징을 지정하지 못하고, 일상적인 구어 발음보다는 격식 있는 문법 규칙을 반영한다는 점입니다. 한편, 직접적인 시퀀스 투 시퀀스 (sequence-to-sequence) IPA 예측 방식은 제한된 데이터에서 어려움을 겪으며, 아브자드 특유의 문자 수준 정렬 (character-level alignment)을 활용하지 못합니다.
우리의 방법론인 ReNikud는 두 가지 핵심 통찰을 통해 이러한 한계를 극복합니다: (1) 수천 시간의 레이블이 없는 히브리어 오디오에 대해 음소 기반 자동 음성 인식 (Automatic Speech Recognition, ASR) 의사 레이블링 (pseudo-labeling) 파이프라인을 통한 약한 오디오 지도 학습 (Weak audio supervision)을 수행하여, 수동 주석 없이도 자연스러운 구어 규범을 반영하는 음소 전사를 생성합니다. (2) 각 문자 위치에서 IPA 음소를 예측하는 의사 모음화 (pseudo-vocalization) 아키텍처를 통해, 귀납적 편향 (inductive bias)으로서 문자 수준 정렬을 강제합니다. 기존 히브리어 G2P 벤치마크와 구어 히브리어를 대상으로 하는 새로운 MILIM 벤치마크에서의 결과는 ReNikud가 이전의 최첨단 (state-of-the-art) 방식들을 능가함을 보여줍니다. 우리는 히브리어 TTS 및 음성 기술에 관한 후속 연구를 지원하기 위해 코드와 학습된 모델을 공개할 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기