arXiv논문2026. 04. 27. 19:59

UniSonate: 텍스트 지시를 통한 음성, 음악 및 사운드 효과 생성을 위한 통합 모델

요약

UniSonate는 텍스트 지시를 사용하여 음성, 음악 및 사운드 효과 등 이질적인 오디오 모달리티를 통합적으로 생성할 수 있는 새로운 흐름 매칭(flow-matching) 프레임워크입니다. 기존의 TTS, TTM, TTA와 같이 분산되어 있던 전문화된 모델들의 한계를 극복하기 위해 설계되었으며, 특히 비구조적인 환경 소리를 구조화된 시간 잠재 공간으로 투영하는 동적 토큰 주입 메커니즘을 도입했습니다. 이 접근법은 다양한 오디오 모달리티 간의 최적화를 통해 높은 성능과 구조적 일관성을 입증했습니다.

핵심 포인트

UniSonate는 텍스트 지시를 기반으로 음성, 음악, 사운드 효과 등 세 가지 주요 오디오 모달리티를 통합적으로 생성하는 프레임워크입니다.
기존의 전문화된 모델(TTS, TTM, TTA)이 가진 이질적인 제어 패러다임 문제를 해결하기 위해 설계되었습니다.
비구조적인 환경 소리(사운드 효과)를 구조화된 시간 잠재 공간으로 투영하는 새로운 동적 토큰 주입 메커니즘을 사용합니다.
공동 학습 전략을 통해 단일 작업 대비 높은 전이 성능과 구조적 일관성을 달성했습니다.

생성형 오디오 모델링은 주로 이질적인 제어 패러다임 하에서 작동하는 텍스트-투-스피치 (TTS), 텍스트-투-뮤직 (TTM), 그리고 텍스트-투-오디오 (TTA) 라는 전문화된 작업들로 분산되어 왔습니다. 구조화된 의미적 표현 (음성/음악) 과 비구조적인 음향 질감 (사운드 효과) 사이의 본질적인 불협화음으로 인해 이러한 모달리티들을 통합하는 것은 여전히 근본적인 도전 과제입니다. 본 논문에서는 표준화된, 참조 없는 자연어 지시 인터페이스를 통해 음성, 음악 및 사운드 효과를 합성할 수 있는 통합 흐름 매칭 (flow-matching) 프레임워크인 UniSonate 를 소개합니다. 구조적 차이를 조화시키기 위해 우리는 비구조적인 환경 소리를 구조화된 시간 잠재 공간으로 투영하여 음소 기반 Multimodal Diffusion Transformer (MM-DiT) 내에서 정밀한 지속 시간 제어를 가능하게 하는 새로운 동적 토큰 주입 메커니즘을 제안합니다. 다단계 커리큘럼 학습 전략과 결합된 이 접근법은 교차 모달 최적화 충돌을 효과적으로 완화합니다. 광범위한 실험 결과, UniSonate 는 지시 기반 TTS (WER 1.47%) 와 TTM (SongEval Coherence 3.18) 에서 최첨단 성능을 달성하는 동시에 TTA 에서 경쟁력 있는 충실도를 유지함을 보여줍니다. 특히, 다양한 오디오 데이터에 대한 공동 학습이 단일 작업 베이스라인과 비교하여 구조적 일관성과 억양 표현력을 크게 향상시키는 긍정적인 전이 (positive transfer) 를 관찰했습니다. 오디오 샘플은 https://qiangchunyu.github.io/UniSonate/ 에서 확인 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

UniSonate: 텍스트 지시를 통한 음성, 음악 및 사운드 효과 생성을 위한 통합 모델

요약

핵심 포인트

댓글