본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 27. 09:10

OpenMOSS-Team/MOSS-TTS-v1.5 · Hugging Face

요약

MOSS-TTS-v1.5는 제로샷 음성 복제와 다국어 합성을 지원하는 최신 음성 합성 모델입니다. 1.0 버전 대비 음성 복제의 안정성과 언어 태그를 통한 다국어 성능, 문장 부호 기반 운율 제어 능력이 크게 개선되었습니다.

핵심 포인트

  • 31개 언어 지원 및 다국어 연속 학습 확장
  • 화자 유사도 개선 및 복제 분산 감소로 안정성 확보
  • 인라인 마커를 통한 명시적 일시 정지 제어 지원
  • 장문 참조 오디오 및 긴 문장 운율 처리 능력 향상

MOSS-TTS-v1.5

MOSS-TTS-v1.5MOSS-TTS 1.0에서 계승되었습니다. 제로샷 음성 복제 (zero-shot voice cloning), 장문 음성 생성 (long-form speech generation), 토큰 수준 지속 시간 제어 (token-level duration control), 병음/IPA 발음 제어 (Pinyin/IPA pronunciation control), 다국어 합성 (multilingual synthesis), 그리고 코드 스위칭 (code-switching)을 포함한 1.0의 주요 기능들을 유지합니다. 1.0의 전체 기능 설명, 입력 스키마 (input schema), 디코딩 하이퍼파라미터 (decoding hyperparameters), 그리고 평가표에 대해서는 MOSS-TTS 1.0 README를 참조하십시오.

MOSS-TTS 1.0과 비교하여, v1.5는 다음과 같은 개선 사항에 집중합니다:

  • 언어 태그를 통한 더 강력한 다국어 합성: language 필드가 생략될 경우, v1.5는 1.0과 비교했을 때 일부 언어는 개선될 수 있으나 다른 일부 언어에서는 약간 퇴보할 수 있습니다. 언어가 지정될 경우, v1.5는 거의 모든 지원 언어에서 1.0보다 강력합니다. 사용자 메시지를 구축할 때 태그를 설정하십시오. 예를 들어 processor.build_user_message(text=text_fr, language="French")와 같이 사용합니다.
  • 더 안정적인 음성 복제: v1.5는 화자 유사도 (speaker similarity)를 개선하고 복제 분산 (cloning variance)을 줄여, 반복적인 생성 시 더 일관된 결과를 제공합니다.
  • 더 나은 장문 참조, 단문 텍스트 복제: v1.5는 참조 오디오가 대상 텍스트보다 훨씬 긴 시나리오를 1.0보다 더 안정적으로 처리합니다.
  • 더 안정적인 문장 부호 기반 운율: v1.5는 특히 긴 문장에서 문장 부호에 의한 일시 정지 (pauses)를 더 밀접하게 따릅니다.
  • 명시적 일시 정지 제어: v1.5는 "[pause 3.2s]"와 같은 인라인 일시 정지 마커를 지원합니다. 예를 들어, 我今天学习了一首中国的古诗,它的名字是[pause 3.2s]静夜思!静夜思 앞에 명시적인 3.2초의 일시 정지를 삽입합니다.

지원 언어

MOSS-TTS-v1.5는 현재 31개 언어를 지원합니다. MOSS-TTS 1.0에서 지원하던 20개 언어를 유지하면서, 광둥어 (Cantonese), 네덜란드어 (Dutch), 핀란드어 (Finnish), 힌디어 (Hindi), 마케도니아어 (Macedonian), 말레이어 (Malay), 루마니아어 (Romanian), 스와힐리어 (Swahili), 타갈로그어 (Tagalog), 태국어 (Thai), 베트남어 (Vietnamese)를 포함한 추가 언어로 다국어 연속 학습 (multilingual continued training)을 확장했습니다.

그들은 추가 모델도 출시했습니다.

https://huggingface.co/OpenMOSS-Team/MOSS-SoundEffect-v2.0

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0