Stable Audio 3 출시를 발표합니다!
요약
Stability AI가 음악 및 음향 효과(SFX) 생성을 위한 새로운 텍스트-오디오 모델 제품군인 Stable Audio 3를 출시했습니다. 이번 출시에는 Hugging Face를 통해 공개된 세 가지 오픈 웨이트 모델과 추론 및 LoRA 미세 조정을 위한 GitHub 저장소가 포함됩니다.
핵심 포인트
- Stable Audio 3는 Small(음악/SFX) 및 Medium 모델로 구성되며, Medium 모델은 최대 6분 20초 길이의 오디오 생성이 가능합니다.
- 새로운 SAME 오토인코더(autoencoder) 아키텍처를 기반으로 하며, 관련 학술 논문이 함께 발표되었습니다.
- Stability AI Community License에 따라 개인 및 창의적 용도로 무료 사용이 가능하며, 생성물에 대한 로열티나 소유권을 주장하지 않습니다.
- Small 모델은 CPU에서도 효율적으로 실행될 수 있도록 최적화되어 있습니다.
HarmonAI Discord 서버에서 직접 가져온 내용입니다.
음악 및 음향 효과(SFX)를 위한 새로운 텍스트-오디오(text-to-audio) 모델 제품군인 Stable Audio 3의 출시를 발표하게 되어 기쁩니다. 여기에는 새로운 오픈 웨이트 (open-weights) 모델이 포함됩니다! 저희는 오늘 Hugging Face를 통해 세 가지 모델을 공개하며, Stable Audio 3 추론 (inference) 및 LoRA 미세 조정 (fine-tuning)에 특화된 GitHub 저장소도 함께 공개합니다.
- Stable Audio 3 Small Music (https://huggingface.co/stabilityai/stable-audio-3-small-music)
- Stable Audio 3 Small SFX (https://huggingface.co/stabilityai/stable-audio-3-small-sfx)
- Stable Audio 3 Medium (https://huggingface.co/stabilityai/stable-audio-3-medium)
Stable Audio 3 GitHub: https://github.com/Stability-AI/stable-audio-3
Medium 모델은 최대 6분 20초 길이의 음악과 음향 효과를 생성하며, NVIDIA GPU에서 단 몇 초 만에 추론이 가능합니다.
Small 모델들은 (각각) 최대 2분 길이의 음악과 음향 효과를 생성하며, CPU에서 효율적으로 실행되도록 최적화할 수 있습니다.
이 모델들은 Stability AI Community License에 따라 라이선스가 부여되므로, 개인적 및 창의적 용도로 사용하는 것은 완전히 무료입니다.
저희는 모델 출력물에 대해 어떠한 로열티나 소유권도 주장하지 않으며, 출력물은 귀하가 원하는 대로 자유롭게 사용하실 수 있습니다.
저희는 이 모델과 모델의 기반이 되는 새로운 SAME 오토인코더 (autoencoder) 아키텍처에 관한 두 편의 학술 논문도 발표했습니다.
Stable Audio 3 논문: https://arxiv.org/abs/2605.17991
SAME 논문: https://arxiv.org/abs/2605.18613
AI 자동 생성 콘텐츠
본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기