arXiv논문2026. 06. 19. 12:07

FlowEdit: Flow-Matching TTS의 평생 발음 적응을 위한 연상 메모리

요약

FlowEdit은 동결된 Flow-matching TTS 모델의 발음 오류를 해결하기 위한 평생 적응 프레임워크입니다. 가중치 업데이트 없이 Modern Hopfield Network를 활용한 에피소드 메모리에 교정 정보를 저장하여 고유 명사 발음을 개선합니다.

핵심 포인트

가중치 업데이트 없이 잠재 조건부 편집을 통한 발음 교정
Modern Hopfield Network를 활용한 콘텐츠 주소 지정 메모리 구현
다국어 벤치마크에서 음소 오류율(PER) 92.7% 감소 달성
단일 GPU에서 약 15초 내에 빠른 교정 작업 완료 가능

Flow-matching 텍스트 음성 변환 (TTS) 시스템은 놀라운 제로샷 (zero-shot) 품질을 달성하지만, 배포 후에는 정적인 상태로 유지됩니다. 즉, 모델을 재학습시키지 않는 한 어휘집 외 (out-of-vocabulary) 고유 명사에 대한 발음 오류가 지속됩니다. 우리는 가중치 업데이트 대신 잠재 조건부 편집 (latent conditioning edits)으로서 발음 교정을 학습하는, 동결된 (frozen) flow-matching TTS를 위한 평생 적응 (life-long adaptation) 프레임워크인 FlowEdit을 소개합니다. 교정 피드백이 제공되면, FlowEdit은 텍스트 임베딩 공간 (text embedding space) 내의 토큰 수준 섭동 (token-level perturbation)을 최적화한 다음, 콘텐츠 주소 지정이 가능한 에피소드 메모리 (content-addressable episodic memory) 역할을 하는 Modern Hopfield Network에 해당 교정 내용을 저장합니다. 추론 시에는 유사도 게이트 (similarity gate)를 갖춘 소프트 어텐션 (soft attention)을 통해 교정 사항을 검색하여 퍼지 형태소 매칭 (fuzzy morphological matching)을 가능하게 합니다. 18개 언어 가족에 걸친 312개의 다국어 고유 명사로 구성된 큐레이션 벤치마크에서, FlowEdit은 일반적인 음성 품질을 동일하게 유지하면서도 제로샷 베이스라인 대비 대상 단어의 음소 오류율 (Phoneme Error Rate)을 92.7% 감소시켰습니다. 교정 작업은 단일 GPU에서 약 15초 내에 완료됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

FlowEdit: Flow-Matching TTS의 평생 발음 적응을 위한 연상 메모리

요약

핵심 포인트

댓글