MOSS-TTS 1.5 리뷰 2026: 8GB 환경에서의 Apache 라이선스 음성 복제 (Voice Cloning)

이 기사는 원래 aifoss.dev에 게시되었습니다.

요약 (TL;DR): MOSS-TTS 1.5는 짧은 참조 클립으로부터 목소리를 복제하는 8B 오픈 TTS (Text-to-Speech) 모델입니다. XTTS v2 및 F5-TTS와 달리 Apache 2.0 라이선스로 배포되어 실제 유료 제품에 사용할 수 있습니다. llama.cpp 경로를 통해 8GB GPU에 탑재할 수 있으며, Apple Silicon을 위한 MLX 빌드도 제공됩니다. 단점은 복제 충실도(Cloning fidelity)가 XTTS v2에 비해 약간 뒤처지며, 설정 과정이 원클릭 앱보다 까다롭다는 점입니다.

	MOSS-TTS 1.5	F5-TTS	XTTS v2
최적 용도	상업적 복제 + 롱폼 (Long-form)	개인용 복제 프로젝트	개인용 복제, 광범위한 커뮤니티
...

솔직한 의견: 만약 판매할 제품 내에 음성 복제 기능이 필요하다면, MOSS-TTS 1.5는 성능이 좋으면서도 법적으로 깨끗한 최초의 오픈 모델입니다. 수익이 발생하는 순간 F5-TTS나 XTTS v2 대신 이것을 선택하세요.

MOSS-TTS 1.5의 실체

MOSS-TTS는 OpenMOSS 팀(MOSS LLM 작업을 주도한 그룹)과 MOSI.AI에서 만든 음성 생성 (Speech-generation) 제품군입니다. 플래그십 모델의 1.5 버전은 MOSS-SoundEffect-v2.0과 함께 2026년 5월 26일에 출시되었습니다. 이 모델은 저장소에서 MossTTSDelay라고 부르는 아키텍처를 사용하는 80억 파라미터 (8-billion-parameter) 모델이며, 이 제품군의 모든 모델은 Apache License 2.0 하에 출시됩니다.

제품을 만드는 사람들에게 그 라이선스 조항이 핵심입니다. 오픈 소스 세계에서 음성 복제 (Voice cloning)는 법적 지뢰밭이었습니다. XTTS v2는 Coqui의 CPML (비상업적) 라이선스 하에 있으며, Coqui Inc.는 2024년 1월에 폐업했기 때문에 상업적 라이선스를 판매할 주체가 사실상 남아있지 않습니다. F5-TTS는 가중치(Weights)를 CC-BY-NC-4.0 하에 배포하는데, 이 역시 비상업적 용도입니다. MOSS-TTS 1.5는 변호사가 문제를 제기하지 않고도 유료 앱, 클라이언트 납품물, 또는 직장의 내부 도구에 바로 투입할 수 있는 보기 드문 제로샷 복제 (Zero-shot cloning) 모델입니다.

이 제품군은 단일 체크포인트보다 더 광범위합니다:

MOSS-TTS-v1.5 — 8B, 주요 품질 모델 (main quality model).
MOSS-TTS-Local-Transformer-v1.5 — 4B, MossTTSLocal 아키텍처 (architecture), 48kHz 스테레오 (stereo) 출력, 2026년 6월 18일 출시.
MOSS-TTS-Nano — 약 1억(100M) 개의 파라미터 (params), CPU에서 실행 가능, 2026년 4월 13일 출시.

이 리뷰는 8B v1.5 모델에 집중합니다. 해당 모델이 큐 토픽 (queue topic) 및 r/LocalLLaMA 토론의 대부분을 차지하고 있기 때문입니다.

잘하는 점

복제 품질 (Cloning quality)이 진정으로 경쟁력이 있습니다. 표준 Seed-TTS-eval 벤치마크 (benchmark)에서, 8B MossTTSDelay 모델은 **영어 단어 오류율 (English word error rate, WER) 1.84%**와 **영어 화자 유사도 (English speaker similarity) 70.86%**를 기록했으며, **중국어 CER 1.37%**와 **중국어 화자 유사도 (Chinese speaker similarity) 76.98%**를 보고했습니다. 4B 로컬 트랜스포머 (local-transformer) 변형 모델은 유사도를 더 높게 끌어올립니다 (영어 73.28%, 중국어 79.62%). 참고로, 2% 미만의 WER은 모델이 단어를 망가뜨리거나 건너뛰는 일이 거의 없음을 의미하며, 이는 대부분의 로컬 TTS를 실제 내레이션에 사용 불가능하게 만드는 실패 모드 (failure mode)입니다.

장문 안정성 (Long-form stability)이 독보적인 특징입니다. 모델 카드 (model card)에 따르면, 일관된 화자 정체성을 유지하면서 단 한 번의 실행으로 최대 1시간의 일관된 오디오를 생성할 수 있다고 주장합니다. 대부분의 오픈 TTS 모델은 몇 분이 지나면 음색이 변하거나 정체성이 흔들리거나 무너집니다. 오디오북, 팟캐스트, 또는 긴 문서 낭독을 제작한다면, 미세한 유사도 점수 차이보다 이러한 단일 실행 안정성이 훨씬 더 중요합니다.

1.0 버전의 20개 언어에서 늘어난 31개 언어를 지원하며, 중국어, 영어, 프랑스어, 독일어, 스페인어, 일본어, 한국어, 아랍어, 힌디어, 태국어, 베트남어 등을 포함합니다.

일반적으로 얻기 힘든 제어 기능 (Control)을 제공합니다. v1.5는 신뢰할 수 있는 문장 부호 기반 일시 정지 기능과 명시적인 인라인 일시 정지 마커 (inline pause markers)를 추가했습니다. 텍스트에 직접 [pause 3.2s]라고 작성할 수 있습니다. 또한 모델이 제대로 발음하지 못할 이름이나 전문 용어를 위해 혼합된 병음 (Pinyin)/IPA 입력을 통한 음소 수준 (phoneme-level) 발음 제어가 가능합니다. 리포지토리 (repo)는 또한 유용한 계획 규칙을 제공합니다: **1초의 오디오 ≈ 12.5 토큰 (tokens)**이므로, 실행 전 생성 길이를 예측할 수 있습니다.

여러분이 소유한 하드웨어에서 실행됩니다. llama.cpp 최적화 작업 이후, OpenMOSS 팀은 8B 모델이 이제 8GB GPU에 들어갈 수 있다고 밝혔습니다. 이는 24GB 워크스테이션 GPU를 요구하는 대신, RTX 3060 12GB나 심지어 8GB 카드에서도 실행할 수 있는 수준입니다. 이 정도 품질로 목소리를 복제(Voice Cloning)하는 모델이라는 점을 고려하면, 이것이 바로 실용성을 부여하는 핵심적인 소식입니다.

설치 및 첫 실행

두 가지 설치 경로가 있습니다. 표준 PyTorch 런타임(runtime) 방식입니다:

git clone https://github.com/OpenMOSS/MOSS-TTS.git
cd MOSS-TTS
pip install -e ".[torch-runtime]"

또는 8GB 카드와 엣지(edge) 디바이스에서 실행할 수 있게 해주는 torch-free 경로가 있습니다. 이는 전체 PyTorch 스택을 끌어오는 대신, GGUF 가중치(weights)와 ONNX 오디오 토크나이저(audio tokenizer)를 사용합니다:

pip install -e ".[llama-cpp-onnx]"

최소한의 제로샷(zero-shot) 복제는 다음과 같습니다. 모델을 짧은 참조 클립(reference clip)과 전사(transcript)에 지정한 다음, 해당 목소리로 새로운 텍스트를 합성합니다:

from moss_tts import MossTTS

tts = MossTTS.from_pretrained("OpenMOSS-Team/MOSS-TTS-v1.5")
...

첫 실행 시 수 GB의 가중치와 ONNX 토크나이저를 다운로드하게 됩니다. 12GB 카드에서는 8B 모델이 여유롭게 로드되지만, 8GB 환경에서는 llama.cpp/GGUF 빌드를 사용해야 하며 다른 GPU 앱을 먼저 종료하는 것이 좋습니다.

Apple Silicon 및 ComfyUI

이 독자층에게 중요한 두 가지 통합 포인트가 있습니다.

Apple Silicon에서의 MLX. MOSS-TTS와 MOSS 오디오 토크나이저는 mlx-audio를 지원하며, 커뮤니티에서는 mlx-community/MOSS-TTS-8B-8bit와 같은 양자화(quantized) 빌드를 공개했습니다. 통합 메모리(unified memory)를 사용하는 Mac에서는 이것이 가장 깔끔한 경로입니다. CUDA나 드라이버를 씨름할 필요가 없습니다. 이미 Mac에서 로컬 모델을 실행 중이라면, 저희의 Ollama MLX 백엔드 설정 가이드에서 설명한 것과 동일한 논리가 적용됩니다. MLX 빌드는 M 시리즈 칩에서 설정의 단순함과 메모리 효율성을 크게 높이는 대신, 품질의 여유분(headroom)을 약간 희생합니다.

ComfyUI. 모델을 ComfyUI의 노드 그래프(node graph)에 연결해 주는 커뮤니티 확장 기능인 comfyui-moss-tts가 있습니다. 이미 이미지 파이프라인(image pipeline)을 실행 중이라면, 동일한 캔버스에 TTS를 결합할 수 있습니다. 이는 하나의 워크플로우(workflow) 내에서 내레이션이 포함된 비디오 에셋을 생성할 때 유용합니다. ComfyUI 노드가 처음이라면, 저희의 ComfyUI 커스텀 노드 가이드에서 설치를 망가뜨리지 않고 서드파티(third-party) 팩을 설치하고 관리하는 방법을 다루고 있습니다.

비교 분석

실제 결정 사항은 결코