제로샷 감정 음성 클로닝 및 음성 생성, 텍스트 프롬프트로 목소리의 감정, 어조, 리듬을 제어하며 16GB VRAM으로 실행 가능.

제로샷 (Zero-shot) 감정 음성 클로닝 (Voice Cloning) 및 음성 생성, 텍스트 프롬프트 (Text Prompt)로 목소리의 감정, 어조, 리듬을 제어하며 16GB VRAM으로 실행 가능.
https://
gitub.com/ScenemaAI/scen
ema-audio
…
Scenema Audio는 확산 트랜스포머 (Diffusion Transformer)를 사용하여 음성 클로닝 및 생성을 수행하며, 기반 기술은 LTX 2.3의 시청각 모델에서 유래되었습니다. 10초의 참조 오디오를 넣으면 목소리를 클로닝할 수 있으며, XML 프롬프트로 감정의 기복, 말하기 속도, 호흡 및 연기 스타일을 제어할 수 있습니다. 다국어 지원, 환경 음향 효과 동시 생성, 긴 텍스트 자동 분할 기능 등을 모두 지원합니다. 최소 16GB VRAM이 필요하며, Docker로 원클릭 실행이 가능하고 API와 Web UI를 제공합니다.

AI로 macOS 앱 아이콘을 생성하는 데스크톱 도구
https://
gitub.com/TeamDev-IP/MoB
rowser-App-Icon-Maker
…
이 데스크톱 앱은 텍스트 설명만으로 macOS 스타일의 .icns 아이콘을 생성할 수 있게 해줍니다. 매번 세 가지 변형을 출력해 비교하기 편리하며, 참조 이미지를 붙여 스타일을 제어할 수 있고, 선택한 후에는 반복적으로

Insights

제로샷 감정 음성 클로닝 및 음성 생성, 텍스트 프롬프트로 목소리의 감정, 어조, 리듬을 제어하며 16GB VRAM으로 실행 가능.

요약

핵심 포인트

댓글

News Corporation의 실적 발표 전 알아야 할 사항

Fox Corporation의 다음 실적 발표에서 기대할 수 있는 것

Knight-Swift Transportation Holdings Inc. 2026년 2분기 실적 전망

News Corporation의 실적 발표 전 알아야 할 사항

Fox Corporation의 다음 실적 발표에서 기대할 수 있는 것

Knight-Swift Transportation Holdings Inc. 2026년 2분기 실적 전망