본문으로 건너뛰기

© 2026 Molayo

r/StableDiffusion분석2026. 05. 14. 04:20

Scenema Audio: Zero-shot 표현력 있는 음성 복제 및 음성 생성

요약

Scenema Audio는 감정적 연기(emotional performance)와 목소리 정체성(voice identity)을 분리하여, 사용자가 원하는 어떤 감정도 특정 목소리로 구현할 수 있는 확산 모델 기반의 음성 생성 시스템입니다. 이 모델은 텍스트-음성 변환(TTS) 파이프라인 대신 확산 모델을 사용하여 매우 자연스럽고 로봇 같지 않은 고품질의 감정 표현을 제공합니다. 또한, Scenema Audio로 생성된 오디오는 A2V(Audio-to-Video) 파이프라인에 입력되어 음성에 맞는 비디오를 만드는 '오디오 우선' 워크플로우 구축에 활용될 수 있습니다. 개발 편의성을 위해 Docker REST API 형태로 제공되며, 향후 ComfyUI 노드 지원도 계획하고 있습니다.

핵심 포인트

  • 감정적 연기와 목소리 정체성의 독립성: 사용자는 참조 오디오로 '누구'를 정의하고 프롬프트로 '어떻게'를 지정하여 원하는 감정을 구현할 수 있다.
  • 확산 모델 기반의 고품질 음성 생성: 전통적인 TTS가 따라오기 힘든 자연스러운 감정 전달과 품질을 제공한다.
  • 오디오 우선 비디오 워크플로우 지원: Scenema Audio로 오디오를 먼저 생성한 후, 이를 A2V 파이프라인에 입력하여 영상 콘텐츠 제작에 활용할 수 있다.
  • 개발 환경 접근성: Docker REST API 형태로 제공되어 의존성 관리 없이 쉽게 프로덕션 환경에서 사용할 수 있으며, ComfyUI 노드 지원도 예정되어 있다.

저희는 scenema.ai의 비디오 제작 플랫폼의 일부로 Scenema Audio를 구축해 왔으며, 이제 모델 가중치(model weights)와 추론(inference) 코드를 공개합니다.

핵심 아이디어는 다음과 같습니다: 감정적 연기(emotional performance)와 목소리의 정체성(voice identity)은 독립적이라는 것입니다. 사용자는 음성이 어떻게 연기되어야 하는지(분노, 슬픔, 흥분, 아이의 경이로움 등)를 설명하고, 선택적으로 목소리 정체성을 위한 참조 오디오(reference audio)를 제공합니다. 참조 오디오는 "누구(who)"인지를 제공하고, 프롬프트(prompt)는 "어떻게(how)"인지를 제공합니다. 어떤 목소리라도 해당 감정 상태로 녹음된 적이 없더라도 어떤 감정이든 연기할 수 있습니다.

한계점 (그리고 우리가 여전히 사용하는 이유)

이것은 전통적인 TTS(Text-to-Speech) 파이프라인이 아닌 확산 모델(diffusion model)입니다. 일반적인 문제로는 일부 시드(seed)에서 반복이나 의미 없는 말(gibberish)이 발생하는 경우가 있습니다. 시드마다 결과가 다르며, 오류율 0%의 완벽한 출력물을 얻을 수는 없습니다. 이 모델은 사후 편집(post-editing) 워크플로우를 위해 설계되었습니다: 생성하고, 가장 좋은 테이크를 선택하고, 필요하면 다듬는 방식입니다. 이는 다른 생성 모델(generative model)을 사용하는 방식과 동일합니다.

그럼에도 불구하고, 저희는 이미 시중에 나온 대부분의 TTS 시스템보다 제어력이 뛰어난 Gemini 3.1 Flash TTS보다도 Scenema Audio를 계속 사용하게 됩니다. 이유는 간단합니다: 출력이 훨씬 더 자연스럽고 로봇 같지 않기 때문입니다. 특히 감정적인 전달에 있어서, 자기회귀(autoregressive) TTS가 따라오지 못하는 확산 생성 음성만의 품질이 있습니다.

오디오 우선 비디오 생성 (Audio-first video generation)

이 영상에서 지적하듯이, 오디오를 먼저 생성한 다음 이를 사용하여 비디오 생성을 구동하는 것은 강력한 워크플로우입니다. 실제로 저희는 일부 사례에서 Scenema Audio를 그런 방식으로 사용해 왔습니다. 음성 연기를 생성한 다음, 이를 A2V(Audio-to-Video) 파이프라인(LTX 2.3, Wan 2.6, Seedance 2.0 등)에 입력하여 음성에 맞는 비디오를 생성합니다. 이곳에서 해당 워크플로우가 작동하는 예시를 볼 수 있습니다.

증류(distillation) 및 속도에 대하여

증류(distillation) 및 속도에 대하여

몇몇 분들이 질문해 주셨습니다. 우리의 병목 현상(bottleneck)은 디노이징 단계(denoising steps)가 아닙니다. 확산 패스(diffusion pass)는 전체 생성 시간의 아주 작은 부분만을 차지합니다. 실제 비용은 파이프라인의 다른 곳에 있습니다. 우리는 이미 8단계까지 줄였으며(기본 모델의 50단계에서 감소), 이는 품질이 유지되는 최적의 지점(sweet spot)입니다.

프롬프팅(Prompting)의 중요성

이 모델은 LTX 2.3이 비디오에서 그러하듯 프롬프팅(prompting)에 민감합니다. 일반적인 음성 묘사는 일반적인 결과물을 제공합니다. 액션 태그(action tags)를 포함한 구체적이고 연극적인 묘사는 연기(performance)를 제공합니다. 또한 모델이 단어당 할당받는 시간을 제어하는 pace 파라미터(parameter)도 있습니다. 사용자의 사례에 맞는 설정을 찾기 위해서는 약간의 실험이 필요하지만, 일단 찾고 나면 품질 저하를 최소화하면서 수 시간 분량의 오디오를 생성할 수 있습니다.

복잡한 단어와 고유명사는 음성 철자(phonetic spelling)를 사용하면 도움이 됩니다. 전통적인 TTS와 달리, 이 모델은 음소-오디오 파이프라인(phoneme-to-audio pipeline)이나 발음 사전(pronunciation dictionary)을 가지고 있지 않습니다. 만약 모델이 "Tchaikovsky"를 제대로 발음하지 못한다면, "Chai-koff-skee"와 같이 본인이 이해하기 쉬운 방식으로 철자를 적어주면 됩니다.

자동 VRAM 관리를 지원하는 Docker REST API

우리는 이를 REST API가 포함된 Docker 컨테이너로 제공합니다. scenema.ai의 프로덕션 환경에서 사용하는 것과 동일한 설정입니다. 서비스는 GPU를 자동으로 감지하고 적절한 구성을 선택합니다:

VRAMAudio ModelGemma비고
16 GBINT8 (4.9 GB)CPU streaming32 GB 시스템 RAM 필요
...

우리가 Docker를 선택한 이유는 그것이 우리가 서비스를 제공하는 방식이기 때문입니다. 의존성 지옥(dependency hell)이나 conda 환경(conda environments)이 필요 없습니다. 이미지를 가져오고(Pull), Gemma 접근을 위한 HF 토큰을 설정한 다음, docker compose up을 실행하면 됩니다.

ComfyUI

네이티브 ComfyUI 노드(node) 지원이 계획되어 있습니다. 커뮤니티 누군가가 우리보다 먼저 출시하지 않는 한, 향후 몇 주 내에 출시하기를 희망하고 있습니다. 그전까지는 REST API가 단순한 로컬 HTTP 서비스이므로 커스텀 노드(custom node)에서 호출하기 매우 쉽습니다.

링크

이것은 완전히 오픈 소스 (open source)입니다. 모델 가중치 (model weights)는 LTX-2 Community License를 따르지만, 모든 추론 (inference) 및 파이프라인 (pipeline) 코드는 MIT 라이선스입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0