Scenema Audio: Zero-shot 표현력 있는 음성 복제 및 음성 생성

요약

Scenema Audio는 감정적 연기(emotional performance)와 목소리 정체성(voice identity)을 분리하여, 사용자가 원하는 어떤 감정도 특정 목소리로 구현할 수 있게 하는 확산 모델 기반의 음성 생성 시스템입니다. 이 모델은 참조 오디오를 통해 '누구'를 정의하고, 텍스트 프롬프트를 통해 '어떻게' 연기해야 할지 지시합니다. 이 기술은 기존 TTS 방식보다 훨씬 자연스러운 감정 전달 능력을 제공하며, 생성된 음성을 A2V(Audio-to-Video) 파이프라인에 입력하여 비디오 콘텐츠를 제작하는 데 활용될 수 있습니다. 또한 Docker REST API 형태로 배포되어 프로덕션 환경에서의 사용 편의성이 높습니다.

핵심 포인트

감정적 연기와 목소리 정체성을 분리하여, 어떤 감정도 특정 목소리로 구현 가능합니다.
확산 모델(diffusion model) 기반으로 작동하며, 기존 TTS 대비 훨씬 자연스러운 감정 표현이 강점입니다.
생성된 오디오를 A2V 파이프라인에 연결하여 '오디오 우선 비디오 생성' 워크플로우를 구축할 수 있습니다.
Docker REST API 형태로 제공되어 프로덕션 배포 및 사용 편의성이 높습니다.
구체적인 액션 태그나 음성 철자(phonetic spelling) 같은 프롬프팅 기법을 활용하면 품질과 제어력을 극대화할 수 있습니다.

저희는 scenema.ai의 비디오 제작 플랫폼의 일부로 Scenema Audio를 구축해 왔으며, 이제 모델 가중치(model weights)와 추론(inference) 코드를 공개합니다.

핵심 아이디어는 다음과 같습니다: 감정적 연기(emotional performance)와 목소리 정체성(voice identity)은 독립적이라는 것입니다. 사용자는 음성이 어떻게 연기되어야 하는지(분노, 슬픔, 흥분, 아이의 경이로움 등)를 설명하고, 선택적으로 목소리 정체성을 위한 참조 오디오(reference audio)를 제공합니다. 참조 오디오는 "누구(who)"를 제공하고, 프롬프트(prompt)는 "어떻게(how)"를 제공합니다. 어떤 목소리라도 해당 감정 상태로 녹음된 적이 없더라도 어떤 감정이든 연기할 수 있습니다.

한계점 (그리고 우리가 여전히 이를 사용하는 이유)

이것은 전통적인 TTS(Text-to-Speech) 파이프라인이 아닌 확산 모델(diffusion model)입니다. 일반적인 문제로는 일부 시드(seed)에서 반복이나 횡설수설(gibberish)이 발생하는 경우가 있습니다. 시드마다 결과가 다르며, 오류율 0%의 완벽한 출력물을 얻을 수는 없습니다. 이 모델은 사후 편집(post-editing) 워크플로우를 위해 설계되었습니다: 생성하고, 가장 좋은 테이크를 선택하고, 필요하면 다듬는 방식입니다. 이는 다른 생성 모델(generative model)을 사용하는 방식과 동일합니다.

그럼에도 불구하고, 저희는 이미 시중에 나온 대부분의 TTS 시스템보다 제어력이 뛰어난 Gemini 3.1 Flash TTS보다도 Scenema Audio를 계속 사용하게 됩니다. 이유는 간단합니다: 출력이 훨씬 더 자연스럽고 로봇 같지 않기 때문입니다. 확산 모델로 생성된 음성에는 자기회귀(autoregressive) TTS가 따라오지 못하는 품질이 있으며, 특히 감정적인 전달(emotional delivery)에서 더욱 그렇습니다.

오디오 우선 비디오 생성 (Audio-first video generation)

이 영상에서 지적하듯이, 오디오를 먼저 생성한 다음 이를 사용하여 비디오 생성을 구동하는 것은 강력한 워크플로우입니다. 실제로 저희가 일부 사례에서 Scenema Audio를 사용하는 방식이기도 합니다. 음성 연기를 생성한 다음, 이를 A2V(Audio-to-Video) 파이프라인(LTX 2.3, Wan 2.6, Seedance 2.0 등)에 입력하여 음성과 일치하는 비디오를 생성합니다. 이곳에서 해당 워크플로우가 작동하는 예시를 확인하세요.

증류(distillation) 및 속도에 대하여

증류 (distillation) 및 속도에 대하여

몇몇 분들이 질문해 주셨습니다. 우리의 병목 현상 (bottleneck)은 디노이징 (denoising) 단계가 아닙니다. 디퓨전 (diffusion) 패스는 전체 생성 시간의 아주 작은 부분만을 차지합니다. 실제 비용은 파이프라인 (pipeline)의 다른 곳에 있습니다. 우리는 이미 8단계까지 줄였으며 (기본 모델의 50단계에서 감소), 이는 품질이 유지되는 최적의 지점 (sweet spot)입니다.

프롬프팅 (Prompting)의 중요성

이 모델은 LTX 2.3이 비디오에서 그러하듯, 프롬프팅 (prompting)에 민감합니다. 일반적인 음성 묘사는 일반적인 결과물을 제공합니다. 액션 태그 (action tags)를 포함한 구체적이고 연극적인 묘사는 연기 (performance)를 제공합니다. 또한 모델이 단어당 할당받는 시간을 조절하는 pace 파라미터 (parameter)도 있습니다. 사용자의 유스케이스 (use case)에 맞는 설정을 찾으려면 어느 정도의 실험이 필요하지만, 일단 찾고 나면 품질 저하를 최소화하면서 수 시간 분량의 오디오를 생성할 수 있습니다.

복잡한 단어나 고유명사는 음성 철자 (phonetic spelling)를 사용하면 도움이 됩니다. 전통적인 TTS (Text-to-Speech)와 달리, 이 모델은 음소-오디오 (phoneme-to-audio) 파이프라인이나 발음 사전 (pronunciation dictionary)을 가지고 있지 않습니다. 만약 모델이 "Tchaikovsky"를 뭉개뜨린다면, "Chai-koff-skee"와 같이 본인이 이해하기 쉬운 방식으로 철자를 적어주면 됩니다.

자동 VRAM 관리가 포함된 Docker REST API

우리는 이를 REST API가 포함된 Docker 컨테이너 (container) 형태로 제공합니다. scenema.ai의 프로덕션 (production) 환경에서 사용하는 것과 동일한 설정입니다. 서비스는 GPU를 자동으로 감지하여 적절한 구성을 선택합니다:

VRAM	Audio Model	Gemma	Notes
16 GB	INT8 (4.9 GB)	CPU streaming	32 GB 시스템 RAM 필요
...
우리가 Docker를 선택한 이유는 그것이 우리가 서비스를 제공하는 방식이기 때문입니다. 의존성 지옥 (dependency hell)도, conda 환경 (environments)도 없습니다. 우리는 프로덕션 배포 (production deployment)를 위해 이를 구축했습니다.

ComfyUI

네이티브 ComfyUI 노드 (node) 지원이 계획되어 있습니다. 커뮤니티 누군가가 우리보다 먼저 출시하지 않는 한, 향후 몇 주 내에 출시하기를 희망하고 있습니다. 그전까지는 REST API가 단순한 로컬 HTTP 서비스이므로 커스텀 노드 (custom node)에서 호출하기 매우 쉽습니다.

Scenema Audio를 시도하는 방법

저장소 (repo)를 클론 (clone)하고 로컬에서 docker compose up을 실행하거나
Scenema로 이동하여 대화를 시작해 보이스오버 (voiceover)를 생성해 보세요. 무료로 보이스 디자인 (voice design)을 시도하고, 프롬프트 (prompts)를 반복 수정하며, 속도 (pacing)를 조절하는 등의 작업을 할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기