OpenMOSS/MOSS-TTS
요약
MOSI.AI와 OpenMOSS가 개발한 오픈 소스 음성 및 사운드 생성 모델 제품군인 MOSS-TTS를 소개합니다. 고충실도 음성 합성, 다중 화자 대화, 환경음 생성 및 실시간 스트리밍을 지원하며 다양한 최신 기술 보고서와 모델 업데이트를 포함하고 있습니다.
핵심 포인트
- DiT 백본 기반의 MOSS-SoundEffect-v2.0 출시
- 다국어 합성 및 정교한 음성 복제 기능을 갖춘 v1.5 업데이트
- 4개 CPU 코어만으로 구동 가능한 100M 파라미터 Nano 모델 지원
- SGLang 백엔드 지원을 통한 약 3배 빠른 추론 처리량 확보
- arXiv 기술 보고서 공개 및 다양한 파인튜닝 튜토리얼 제공
MOSS-TTS Family는 MOSI.AI와 OpenMOSS 팀이 개발한 오픈 소스 **음성 및 사운드 생성 모델 제품군 (speech and sound generation model family)**입니다. 이 모델은 고충실도 (high-fidelity), 고표현력 (high-expressiveness), 그리고 **복잡한 실제 시나리오 (complex real-world scenarios)**를 위해 설계되었으며, 안정적인 장문 음성, 다중 화자 대화, 목소리/캐릭터 디자인, 환경음 효과, 그리고 실시간 스트리밍 TTS를 지원합니다.
-
2026.5.26: 🚀 **Flow Matching 목적 함수를 사용하는 DiT 백본 (DiT backbone with the Flow Matching objective)**을 활용하여, 최대 30초 길이의 48 kHz 이중 언어 사운드 효과를 생성하는 새로운 텍스트-오디오 모델인 MOSS-SoundEffect-v2.0을 출시했습니다 —
moss_soundeffect_v2/를 참조하세요. -
2026.5.26: 🚀 언어 태그가 제공될 때 더욱 강력한 다국어 합성 기능을 갖추고, 더 안정적인 음성 복제 (voice cloning), 더 나은 장문 참조 단문 복제 (long-reference short-text cloning), 문장 부호를 따르는 운율 (punctuation-following prosody), 그리고
[pause X.Ys]를 통한 명시적인 일시 정지 제어 기능을 포함한 MOSS-TTS-v1.5를 출시했습니다. -
2026.5.6: 🚀 MOSS-TTS와 MOSS-Audio-Tokenizer가 이제
mlx-audio를 지원합니다. 자세한 내용은 mlx-audio GitHub 저장소를 방문하세요. -
2026.4.29: 📝 MOSS-TTS 2.0이 곧 출시됩니다! 요구사항 수집 양식을 통해 TTS 피드백, 제안 및 기능 요청을 수집하고 있습니다.
-
2026.4.13: 🚀 약 1억 개(100M)의 파라미터를 가진 모델인 MOSS-TTS-Nano를 이제 사용할 수 있습니다! 이 모델은 단 4개의 CPU 코어만으로 다국어 음성 복제, 48 kHz 스테레오 입출력, 그리고 스트리밍 출력을 지원합니다. 자세한 내용은 GitHub 저장소와 저희 블로그를 확인하세요.
-
2026.3.31: 📄 MOSS-TTSD 및 MOSS-VoiceGenerator에 대한 기술 보고서 (technical reports)가 arXiv에 공개되었습니다!
-
2026.3.26: 📘 MOSS-TTS-Realtime 파인튜닝 (fine-tuning)에 관한 튜토리얼을 추가했습니다!
-
2026.3.20: 📄 저희의 기술 보고서 (technical report)가 arXiv에 공개되었습니다!
-
2026.3.18: 🚀 동반 저장소인
OpenMOSS/llama.cpp에 일급 객체(first-class) 수준의 MOSS-TTSllama.cpp구현을 추가했습니다.
, GGUF 백본 추론(inference) 및 ONNX 오디오 코덱 디코딩(decoding)을 위한 실행 가능한 파이프라인과 엔드투엔드(end-to-end) 문서를 포함합니다. 일급 객체(first-class) e2e 가이드를 참조하세요. - 2026.3.16: 📘 MOSS-TTS-Local-Transformer에 적합한 MossTTSLocal 아키텍처 미세 조정(fine-tuning) 튜토리얼을 추가했습니다!
- 2026.3.12: 🚀
MossTTSDelay아키텍처에 대한 SGLang 백엔드 지원을 추가하여, MOSS-TTS (Delay) 및 MOSS-SoundEffect에 대해 약 3배 더 빠른 생성 처리량(throughput)으로 효율적인 추론(inference)이 가능해졌습니다! - 2026.3.11: 📘 MOSS-TTS(Delay), MOSS-TTSD, MOSS-VoiceGenerator 및 MOSS-SoundEffect에 적합한 MossTTSDelay 아키텍처 미세 조정(fine-tuning) 튜토리얼을 추가했습니다! - 2026.3.10: ⚡️ llama.cpp 추론 파이프라인(inference pipeline)의 VRAM 사용량을 대폭 최적화했습니다. 이제 8B 모델이 8GB GPU에 탑재됩니다!
- 2026.3.4: 🚀 PyTorch-free 추론 지원을 추가하여 llama.cpp + ONNX Runtime을 통한 경량 온디바이스(on-device) 배포가 가능해졌습니다. 양자화된 **GGUF 가중치(weights)**는 OpenMOSS-Team/MOSS-TTS-GGUF에 공개되었으며, **ONNX 오디오 토크나이저(audio tokenizer)**는 OpenMOSS-Team/MOSS-Audio-Tokenizer-ONNX에서 사용할 수 있습니다. 자세한 내용은 llama.cpp 백엔드를 참조하세요. - 2026.3.4: 🎉 🦞 OpenClaw의 ClawHub에 feishu-voice-tts 및 moss-tts-voice와 같은 MOSS-TTS 기술을 추가합니다.
- 2026.2.10: 🎉🎉🎉 MOSS-TTS 패밀리(Family)를 출시했습니다. 자세한 내용은 저희 블로그를 확인하세요! 저희의 Huggingface Space는 여기 있습니다: MOSS-TTS, MOSS-TTSD-v1.0, MOSS-VoiceGenerator.
tts_promotional_video.mp4
- MOSS-TTS 패밀리 (Family)
단일 오디오가 실제 사람처럼 들려야 하고, 모든 단어를 정확하게 발음하며, 콘텐츠에 따라 말하기 스타일을 전환하고, 수십 분 동안 안정성을 유지하며, 대화, 역할극 및 실시간 상호작용을 지원해야 할 때, 단일 TTS 모델만으로는 충분하지 않은 경우가 많습니다. MOSS-TTS 패밀리는 워크플로우를 독립적으로 사용하거나 완전한 파이프라인으로 구성할 수 있는 5개의 제작 준비 완료(production-ready) 모델로 분리합니다.
- MOSS-TTS: 높은 충실도(high fidelity)와 최적의 제로샷 음성 복제(zero-shot voice cloning) 기능을 갖춘 플래그십 프로덕션 모델입니다. 장문 생성(long-speech generation), 병음(Pinyin), 음소(phonemes) 및 지속 시간(duration)에 대한 미세 조정 제어(fine-grained control), 그리고 다국어/코드 스위칭(multilingual/code-switched) 합성을 지원합니다. -
MOSS-TTSD: 표현력이 풍부하고 다중 화자가 참여하는 초장문 대화(ultra-long dialogues)를 위한 대화 생성 모델입니다. 새로운 v1.0 버전은 객관적 지표에서 업계 선도적인 성능을 달성했으며, 주관적 평가에서는 Doubao 및 Gemini 2.5-pro와 같은 최상위 폐쇄형(closed-source) 모델들을 능가했습니다. 자세한 내용은 MOSS-TTSD 리포지토리를 방문하여 확인하실 수 있습니다. -
MOSS-VoiceGenerator: 참조 음성(reference speech) 없이 텍스트 프롬프트만으로 다양한 목소리와 스타일을 생성할 수 있는 오픈 소스 음성 설계 모델입니다. 음성 설계, 스타일 제어 및 합성을 통합하며, 독립적으로 작동하거나 다운스트림 TTS를 위한 설계 레이어로 기능합니다. 이 모델의 성능은 아레나(arena) 레이팅에서 다른 최상위권 음성 설계 모델들을 능가합니다. -
MOSS-TTS-Realtime: 실시간 음성 에이전트를 위한 멀티턴 문맥 인식(multi-turn context-aware) 모델입니다. 점진적 합성(incremental synthesis)을 사용하여 자연스럽고 일관된 답변을 보장하며, 텍스트 모델과 결합 시 저지연(low-latency) 음성 에이전트를 구축하는 데 이상적입니다. MOSS-TTS-Realtime의 TTFB(Time To First Byte)는 180ms에 달하며, $T_{\text{LLM-first-sentence}} + T_{\text{MOSS-TTS-Realtime-TTFB}}$는 377ms입니다. -
MOSS-SoundEffect: 넓은 카테고리 범위와 제어 가능한 지속 시간을 갖춘 **효과음 생성(sound effect generation)**에 특화된 콘텐츠 제작 모델입니다. 자연 환경, 도시 장면, 생물학적 소리, 인간의 행동 및 음악적 파편에 대한 오디오를 생성하며, 영화, 게임 및 인터랙티브 경험에 적합합니다.
우리는 하나의 학습/평가 설정 하에서 상호 보완적인 베이스라인 (baselines)으로서 MossTTSDelay와 MossTTSLocal을 학습시킵니다. Delay는 긴 문맥 안정성 (long-context stability), 추론 속도 (inference speed), 그리고 프로덕션 준비성 (production readiness)을 강조하는 반면, Local은 스트리밍 지향 시스템을 위한 경량화된 유연성 (lightweight flexibility)과 강력한 객관적 성능 (objective performance)을 강조합니다. 이들은 함께 배포 및 연구를 위한 재현 가능한 참조 (reproducible references)를 제공합니다.
MossTTSRealtime은 세 번째 비교 베이스라인이 아니라, 음성 에이전트 (voice agents)를 위한 기능 중심의 설계입니다. 이전 텍스트와 사용자의 음향 (user acoustics) 모두로부터 다회차 문맥 (multi-turn context)을 모델링함으로써, 회차 전반에 걸쳐 일관성을 유지하고 목소리가 일관된 저지연 스트리밍 음성 (low-latency streaming speech)을 제공합니다.
MOSS-TTS-v1.5는 현재 31개 언어를 지원합니다. MOSS-TTS 1.0에서 지원하던 20개 언어를 유지하면서, 광둥어 (Cantonese), 네덜란드어 (Dutch), 핀란드어 (Finnish), 힌디어 (Hindi), 마케도니아어 (Macedonian), 말레이어 (Malay), 루마니아어 (Romanian), 스와힐리어 (Swahili), 타갈로그어 (Tagalog), 태국어 (Thai), 베트남어 (Vietnamese)로 다국어 연속 학습 (multilingual continued training)을 확장했습니다.
MOSS-TTSD와 MOSS-TTS-Realtime은 지원되는 언어 범위에 대해 각각의 모델 카드 (model cards)를 따릅니다.
| 언어 | 코드 | 국기 | 언어 | 코드 | 국기 | 언어 | 코드 | 국기 |
|---|---|---|---|---|---|---|---|---|
| 중국어 | zh | 🇨🇳 | 광둥어 | yue | 🇭🇰 | 영어 | en | 🇺🇸 |
| ... | ||||||||
| MOSS-TTS-v1.5는 MOSS-TTS 1.0에서 연속되었습니다. 제로샷 음성 복제 (zero-shot voice cloning), 장문 음성 생성 (long-form speech generation), 토큰 수준 지속 시간 제어 (token-level duration control), 병음/IPA 발음 제어 (Pinyin/IPA pronunciation control), 다국어 합성 (multilingual synthesis), 그리고 코드 스위칭 (code-switching)을 포함한 1.0의 주요 기능들을 보존합니다. |
MOSS-TTS 1.0과 비교하여, v1.5는 다음과 같은 개선 사항에 집중합니다:
언어 태그 (language tags)를 통한 더 강력한 다국어 합성: 언어가 알려진 경우, processor.build_user_message(text=text, language="French")와 같이 설정하십시오.
또는 그에 상응하는 API 필드를 사용하십시오.
더 안정적인 음성 복제 (Voice Cloning): v1.5는 화자 유사성 (Speaker Similarity)을 개선하고 반복적인 생성 과정에서의 복제 분산 (Cloning Variance)을 줄였습니다.
더 나은 긴 참조, 짧은 텍스트 복제 (Long-reference, Short-text Cloning): v1.5는 대상 텍스트보다 훨씬 긴 참조 오디오 (Reference Audio)를 더욱 안정적으로 처리합니다.
더 안정적인 문장 부호 기반 운율 (Punctuation-following Prosody): v1.5는 특히 긴 문장에서 문장 부호에 따른 일시 정지 (Pause)를 더 밀접하게 따릅니다.
명시적인 일시 정지 제어 (Explicit Pause Control): [pause 3.2s]와 같은 인라인 일시 정지 마커를 사용하십시오.
예를 들어: 我今天学习了一首中国的古诗,它的名字是[pause 3.2s]静夜思!
우리는 🦞 OpenClaw의 ClawHub에 MOSS-TTS 기술을 추가했습니다. API 키는 MOSI AI Studio에서 받을 수 있습니다.
| 기술 (Skill) | 설명 (Description) | 설치 (Install) |
|---|---|---|
feishu-voice-tts | Feishu에서 음성 메시지 전송 | clawhub install feishu-voice-tts |
moss-tts-voice | MOSS-TTS API를 호출하여 음성 생성 | clawhub install moss-tts-voice |
의존성 충돌을 피하기 위해 Transformers 5.0.0이 포함된 깨끗하고 격리된 Python 환경을 권장합니다.
conda create -n moss-tts python=3.12 -y
conda activate moss-tts
모든 필수 의존성을 설치하십시오:
git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime]"
# uv를 먼저 설치하십시오: https://docs.astral.sh/uv/getting-started/installation/
git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS
...
더 빠른 속도와 낮은 GPU 메모리 사용량을 위해, 하드웨어가 지원하는 경우 FlashAttention 2를 설치할 수 있습니다.
Conda/pip를 사용하는 경우:
pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime,flash-attn]"
머신의 RAM이 제한적이고 CPU 코어가 많은 경우, 빌드 병렬성 (Build Parallelism)을 제한할 수 있습니다:
MAX_JOBS=4 pip install --extra-index-url https://download.pytorch.org/whl/cu128 -e ".[torch-runtime,flash-attn]"
uv를 사용하는 경우:
uv pip install --torch-backend cu128 -e ".[torch-runtime,flash-attn]"
머신의 RAM이 제한적이고 CPU 코어가 많은 경우, 빌드 병렬성을 제한할 수 있습니다:
MAX_JOBS=4 uv pip install --torch-backend cu128 -e ".[torch-runtime,flash-attn]"
참고 사항:
- 의존성(Dependencies)은
pyproject.toml에서 관리되며, 현재torch==2.9.1+cu128및torchaudio==2.9.1+cu128로 고정되어 있습니다. uv에서--torch-backend cu128을 사용하면,uv가 호환되는 PyTorch CUDA 휠(wheels)을 가져오고 기본 안전 인덱스 전략을 통해 PyPI에서 나머지를 해결(resolve)합니다.- 다른 백엔드(backend)가 필요한 경우,
cu128을 대상(예:cpu,cu126)으로 교체하십시오. - 머신에서 FlashAttention 2 빌드에 실패하는 경우, 이를 건너뛰고 기본 어텐션(attention) 백엔드를 사용할 수 있습니다.
- FlashAttention 2는 지원되는 GPU에서만 사용할 수 있으며, 일반적으로
torch.float16또는torch.bfloat16과 함께 사용됩니다.
Gradio 데모를 선호하는 경우, 주요 모델에 대해 4개의 스크립트를 제공합니다:
| 모델 | 스크립트 |
|---|---|
| MOSS-TTS | clis/moss_tts_app.py |
| ... |
MOSS-TTS-Realtime Gradio 데모의 경우, MOSS-TTS-Realtime 모델 카드(Model Card)를 참조하십시오.
팁: MOSS-TTS-v1.5는 1.0 MossTTSDelay-8B 체크포인트와 동일한 생성 API를 사용합니다. 다국어 입력의 경우, 언어를 알 때마다 language를 설정하십시오.
MOSS-TTS는 빠른 사용을 위해 편리한 generate 인터페이스를 제공합니다. 아래 예제는 다음 내용을 다룹니다:
- 직접 생성 (중국어 / 영어 / 언어 태그가 포함된 다국어 텍스트 / 병음(Pinyin) / IPA)
- 음성 복제 (Voice cloning)
- 지속 시간 제어 (Duration control)
[pause X.Ys]를 사용한 명시적 일시 정지 제어
from pathlib import Path
import importlib.util
import torch
...
각 모델의 전체 사용법은 해당 모델 카드를 참조하십시오.
파인튜닝(Finetuning) 튜토리얼은 아키텍처별로 정리되어 있습니다.
현재 사용 가능:
MossTTSDelay / OpenMOSS-Team/MOSS-TTS-v1.5 (OpenMOSS-Team/MOSS-TTS와도 호환됨): moss_tts_delay/finetuning/README.md
MossTTSLocal / OpenMOSS-Team/MOSS-TTS-Local-Transformer: moss_tts_local/finetuning/README.md
Moss-TTS-Realtime / OpenMOSS-Team/MOSS-TTS-Realtime: moss_tts_realtime/finetuning/README.md
추가적인 아키텍처별 파인튜닝 (finetuning) 튜토리얼은 각각의 해당 디렉토리에 추가될 예정입니다.
경량화 또는 엣지 (edge) 배포를 위해, MOSS-TTS는 Qwen3 백본 (backbone)을 위한 llama.cpp와 오디오 토크나이저 (audio tokenizer)를 위한 ONNX Runtime / TensorRT를 사용하는 torch-free 추론 경로를 지원합니다. PyTorch 설치가 필요하지 않습니다.
또한 저희는 동반 저장소인 OpenMOSS/llama.cpp에서 더 최신의 퍼스트 클래스 (first-class) MOSS-TTS 경로를 유지 관리하고 있습니다. 아래에 문서화된 레거시 브릿지 백엔드 (legacy bridge backend)와 달리, 이 경로는 멀티 채널 임베딩 (multi-channel embeddings), 멀티 헤드 출력 (multi-head outputs), 그리고 지연 패턴 디코딩 (delay-pattern decoding)을 llama.cpp로 직접 이동시킵니다.
해당 경로를 이용하려면 퍼스트 클래스 e2e 가이드부터 시작하세요.
# 1. 설치 (torch-free)
pip install -e ".[llama-cpp-onnx]"
# 2. 사전 양자화된 백본 + 임베딩/lm_head 가중치 다운로드
...
| 프로필 (Profile) | 설치 명령어 (Install Command) | 의존성 (Dependencies) | 사용 사례 (Use Case) |
|---|---|---|---|
| Torch-free (ONNX) | pip install -e ".[llama-cpp-onnx]" | numpy, onnxruntime-gpu, tokenizers | 권장 시작 지점 |
| Torch-free (TRT) | pip install -e ".[llama-cpp-trt]" | numpy, tensorrt, cuda-python | 최대 오디오 토크나이저 속도 (엔진 직접 빌드) |
| Torch-accelerated | pip install -e ".[llama-cpp-onnx,llama-cpp-torch]" | + torch | GPU 가속 LM 헤드 (~30배 더 빠름) |
가중치를 직접 변환하고 싶으신가요? llama.cpp를 사용하여 MOSS-TTS 가중치를 추출, 변환 및 양자화 (quantizing)하는 단계별 지침은 변환 가이드를 참조하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기