In-the-Wild 사전 지식을 활용한 참조 기반 다중 화자 오디오 장면 생성
요약
ScenA는 텍스트-오디오 플로우 매칭 파운데이션 모델을 활용하여 자연스러운 다중 화자 오디오 장면을 생성하는 연구입니다. 참조 목소리와 자연어 프롬프트를 직접 조건화하여 배경 소음과 중첩된 대화까지 포함된 풍부한 오디오를 생성합니다.
핵심 포인트
- 자유 형식의 프롬프트로 다중 화자 및 주변 환경 제어 가능
- 참조 지름길(Reference Shortcut) 문제를 해결하기 위한 고노이즈 편향 타임스텝 분포 도입
- CoVoMix2-Dialogue 벤치마크에서 기존 시스템 대비 우수한 화자 결합 성능 입증
- 구조화된 스크립트 없이 범용 오디오 모델을 통한 자연스러운 대화 생성
기존의 다중 화자 대화 시스템(multi-speaker dialogue systems)은 턴별 태그(per-turn tags), 멀티 스트림 전사(multi-stream transcriptions), 또는 학습 가능한 화자 임베딩(speaker embeddings)과 같은 구조화된 감독(structured supervision)을 통해 화자를 발화에 결합합니다. 이러한 시스템은 실제 대화의 주변 질감(ambient texture) 없이 깨끗한 음성 시퀀스만을 생성하는 음성 전용 파이프라인(speech-only pipelines) 내에서 작동합니다. 우리는 다른 접근 방식을 취합니다. 우리의 방법인 ScenA는 대규모 In-the-wild 데이터로 사전 학습된 텍스트-오디오 플로우 매칭(text-to-audio flow-matching) 파운데이션 모델을, 여러 개의 참조 목소리(reference voices)와 전체 다중 화자 오디오 장면을 설명하는 자유 형식의 자연어 프롬프트(natural language prompt)에 직접 조건화(conditioning)합니다. 이러한 파운데이션 모델을 활용함으로써, 우리는 턴별 구조 없이도 다중 화자 제어 기능을 추가하는 동시에 배경 소음, 실내 음향(room acoustics), 중첩된 대화(overlapping dialogue), 자발적인 준언어적 사건(spontaneous paralinguistic events)과 같은 자연스럽고 비스튜디오(non-studio)적인 오디오 생성 능력을 상속받을 수 있습니다. 구체적으로, 참조 잠재 변수(reference latents)는 모델의 토큰 시퀀스에 연결(concatenate)되며, 경량화된 정체성 인식 위치 인코딩(identity-aware positional encodings)을 통해 구별됩니다. 그러나 우리는 이 접근 방식의 결정적인 장애물을 발견했습니다: 바로 extit{참조 지름길(Reference Shortcut)}입니다. 표준 노이즈 스케줄(noise schedules) 하에서의 학습 과정 동안, 모델은 노이즈가 섞인 타겟과의 음향적 유사성을 통해 일치하는 참조를 식별함으로써 텍스트 프롬프트를 완전히 우회할 수 있습니다. 우리는 고노이즈 편향 타임스텝 분포(high-noise-biased timestep distribution)를 사용하여 이를 해결하며, 이를 통해 모델이 화자 할당을 위해 텍스트 프롬프트에 의존하도록 강제합니다. 우리는 CoVoMix2-Dialogue 벤치마크에서 ScenA를 평가하였으며, ScenA가 화자 결합(speaker-binding) 지표에서 기존 다중 화자 시스템보다 뛰어난 성능을 보이는 동시에 중첩된 음성, 감정적 발성, 주변 소음이 포함된 풍부한 대화 오디오를 생성함을 보여주었습니다. 우리의 결과는 구조화된 대화 스크립트를 음성 전용 파이프라인을 통해 전달하는 대신, 자유 형식의 장면 설명에 조건화된 범용 오디오 모델을 사용하는 것의 이점을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기