CPU 전용 TTS 벤치마크: Kokoro 82M vs Supertonic 3 vs Inflect-Nano-v1 (4.6M params)
요약
CPU 환경에서 세 가지 오픈 웨이트 TTS 모델(Kokoro 82M, Supertonic 3, Inflect-Nano-v1)의 성능을 RTF와 MOS 지표로 비교 분석했습니다. 모델별 속도와 음질 사이의 트레이드오프를 상세히 다루며, 특히 Kokoro ONNX의 효율성을 강조합니다.
핵심 포인트
- Inflect-Nano-v1은 가장 빠르지만 UTMOS 지표의 오류와 출력 길이 제한이 있음
- Kokoro 모델은 속도는 느리지만 가장 자연스러운 음질을 제공함
- Kokoro ONNX 버전이 PyTorch 버전보다 CPU에서 유의미하게 빠름
- Supertonic 5-step은 속도와 품질 사이의 실용적인 최적점을 제공함
CPU에서 세 가지 오픈 웨이트 (open-weight) TTS 모델을 직접 비교 테스트했습니다. 사양은 Intel Xeon, 4 코어, 15.6GB RAM, GPU 없음입니다. 5가지 설정, 12자에서 1712자 사이의 6가지 텍스트 길이, 워밍업 후 셀당 5회의 시간 측정 반복을 포함하여 총 150회의 시간 측정 실행을 진행했습니다. 모든 오디오 출력물은 UTMOS (utmos22_strong)로 점수를 매겨, 품질이 단순히 느낌(vibes)에 의존하지 않도록 했습니다.
헤드라인 (RTF가 낮을수록 빠름, MOS가 높을수록 자연스러움):
Inflect-Nano-v1: RTF 0.1376, MOS 3.48 (과대평가됨, 아래 내용 참조)
Supertonic-3 2-step: RTF 0.1781, MOS 1.53
Supertonic-3 5-step: RTF 0.3164, MOS 4.37
Kokoro-82M ONNX: RTF 0.5711, MOS 4.44
Kokoro-82M PyTorch: RTF 0.7865, MOS 4.45
주의 깊게 봐야 할 사항:
가장 빠른 설정은 4.6M 파라미터를 가진 Inflect-Nano로, 실시간 대비 7.3배 속도를 보여주었습니다. 그 자체로도 놀랍지만, UTMOS가 이를 과대평가하고 있습니다. 귀로 직접 들어보면 금속성 보코더 (vocoder) 질감이 느껴지는 버즈음(buzzy)이 있고 운율 (prosody)이 단조롭습니다. 이는 작은 HiFi-GAN 보코더가 자연스러움보다는 깨끗함 때문에 보상을 받는 것으로 알려진 UTMOS의 실패 모드입니다.
Inflect-Nano는 또한 약 15초의 출력 제한(음향 모델의 max_frames=1400)이 있습니다. 이보다 긴 텍스트는 조용히 잘라버리기 때문에, 전체 작업을 수행하지 않으므로 긴 텍스트에 대한 RTF 및 처리량(throughput) 수치가 부풀려져 있습니다. 공정한 비교는 제한 범위 내에 들어오는 입력값에 대해서만 가능합니다.
Supertonic 2-step은 속도 면에서 바로 뒤를 잇지만, 로봇처럼 들립니다 (MOS 1.53). 배포하지 마세요.
Kokoro는 세 모델군 중 압도적으로 느리지만, 실제로 사람처럼 들리는 유일한 모델입니다. 이상하게도 두 백엔드 모두에서 텍스트가 길어질수록 RTF가 분할 amortizing 되지 않고 오히려 나빠집니다 (PyTorch 0.60에서 0.99로, ONNX 0.51에서 0.69로).
이 CPU에서 Kokoro ONNX는 Kokoro PyTorch보다 유의미하게 빠르며 (0.5711 vs 0.7865), 소리는 동일합니다 (MOS가 소수점 둘째 자리까지 일치). PyTorch 경로는 실시간보다 간신히 빠른 수준에서 정점에 도달합니다.
Supertonic 5-step은 MOS 4.37과 실시간 대비 3.2배 속도로, OpenRAIL-M 라이선스가 허용된다면 실용적인 최적의 지점(sweet spot)입니다.
사람들이 항상 물어보기에 투명하게 공개합니다: 이 벤치마크는 우리가 구축 중인 AI 코딩 에이전트(Neo)에 의해 엔드 투 엔드(end-to-end)로 설정 및 실행되었습니다. 모든 코드는 리포지토리(repo)에 있습니다.
첫 번째 댓글에 오디오가 포함된 리포지토리(Repo) 및 기술 문서(writeup).
/u/gvij 제출
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기