제로샷 감정 음성 클로닝 및 음성 생성, 텍스트 프롬프트로 목소리의 감정, 어조, 리듬을 제어하며 16GB VRAM으로 실행 가능.
요약
Scenema Audio는 Diffusion Transformer 기술을 기반으로 10초의 참조 오디오만 있으면 목소리를 복제할 수 있는 제로샷 감정 음성 클로닝 모델입니다. XML 프롬프트를 통해 감정, 속도, 호흡 등 세밀한 연기 스타일을 제어할 수 있으며, 16GB VRAM 환경에서 Docker를 통해 간편하게 실행할 수 있습니다.
핵심 포인트
- 10초의 짧은 오디오로 고품질 제로샷 음성 클로닝 가능
- XML 프롬프트를 활용한 감정, 어조, 리듬 및 연기 스타일의 정밀 제어
- 다국어 지원 및 환경 음향 효과 동시 생성 기능 제공
- 16GB VRAM 사양에서 Docker, API, Web UI를 통한 손쉬운 배포 및 사용
제로샷 (Zero-shot) 감정 음성 클로닝 (Voice Cloning) 및 음성 생성, 텍스트 프롬프트 (Text Prompt)로 목소리의 감정, 어조, 리듬을 제어하며 16GB VRAM으로 실행 가능.
https://
gitub.com/ScenemaAI/scen
ema-audio
…
Scenema Audio는 확산 트랜스포머 (Diffusion Transformer)를 사용하여 음성 클로닝 및 생성을 수행하며, 기반 기술은 LTX 2.3의 시청각 모델에서 유래되었습니다. 10초의 참조 오디오를 넣으면 목소리를 클로닝할 수 있으며, XML 프롬프트로 감정의 기복, 말하기 속도, 호흡 및 연기 스타일을 제어할 수 있습니다. 다국어 지원, 환경 음향 효과 동시 생성, 긴 텍스트 자동 분할 기능 등을 모두 지원합니다. 최소 16GB VRAM이 필요하며, Docker로 원클릭 실행이 가능하고 API와 Web UI를 제공합니다.
AI로 macOS 앱 아이콘을 생성하는 데스크톱 도구
https://
gitub.com/TeamDev-IP/MoB
rowser-App-Icon-Maker
…
이 데스크톱 앱은 텍스트 설명만으로 macOS 스타일의 .icns 아이콘을 생성할 수 있게 해줍니다. 매번 세 가지 변형을 출력해 비교하기 편리하며, 참조 이미지를 붙여 스타일을 제어할 수 있고, 선택한 후에는 반복적으로
AI 자동 생성 콘텐츠
본 콘텐츠는 X @qingq77 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기