Reddit요약2026. 06. 18. 09:36

저는 신경망 TTS (Text-to-Speech) 모델이 현실적으로 얼마나 작아질 수 있는지 실험해 왔으며, 방금 Inflect-Nano-v1을

요약

초소형 신경망 TTS 모델인 Inflect-Nano-v1이 출시되었습니다. 5M 미만의 파라미터로 저사양 환경에서도 실행 가능하며, 임베디드 장치나 로컬 음성 에이전트를 위한 효율적인 베이스라인을 제공합니다.

핵심 포인트

총 추론 파라미터 4.63M의 초소형 모델
Kokoro 대비 약 17배, Fish Audio S2 Pro 대비 약 1000배 작은 크기
저사양 컴퓨터 및 임베디드 장치에서의 로컬 실행 최적화
오프라인 어시스턴트 및 브라우저 기반 프로젝트 활용 가능

저는 신경망 TTS (Text-to-Speech) 모델이 현실적으로 얼마나 작아질 수 있는지 실험해 왔으며, 방금 Inflect-Nano-v1을 출시했습니다.

Inflect-Nano는 가장 작은 TTS 모델 중 하나이며, 모델 가중치(weight) 대비 놀라울 정도로 성능이 좋습니다. 성능이 아주 낮은 저사양 컴퓨터(potato computer)를 가지고 있더라도 실행이 가능합니다.

이 모델은 SOTA (State-of-the-Art)는 아니며, 거대 모델을 이길 수 있다고 주장하는 것도 아닙니다. 흥미로운 점은 크기 대비 기능 비율(size-to-functionality ratio)입니다:

총 추론 파라미터(inference params) 4.63M
음향 모델(acoustic model) 3.46M
보코더(vocoder) 1.17M
24 kHz 오디오
영어 전용, 단일 남성 목소리
간단한 PyTorch 추론 스크립트로 로컬에서 실행 가능

비교하자면, Kokoro보다 약 17배 작고, Chatterbox보다 약 108배 작으며, Fish Audio S2 Pro보다 거의 1000배 작습니다.

품질은 여전히 제한적입니다. 로봇처럼 들릴 수 있고, 어렵거나 학습되지 않은 텍스트에서 버벅거릴 수 있으며, 보코더(vocoder) 또한 큰 병목 현상(bottleneck)입니다. 하지만 총 파라미터가 5M 미만이라는 점에서, 저는 이것이 초소형 로컬 음성 합성(speech synthesis), 오프라인 어시스턴트, 임베디드 장치(embedded devices), 브라우저/WASM 스타일 프로젝트, 그리고 로컬 음성 에이전트(voice agents)를 위한 흥미로운 베이스라인(baseline)이 될 수 있다고 생각합니다.

모델: https://huggingface.co/owensong/Inflect-Nano-v1 (README에 오디오 예시 포함)

특히 초소형 모델, 로컬 음성 어시스턴트, 효율적인 추론(efficient inference), 또는 작은 보코더(vocoder)에 관심 있는 분들의 피드백을 기다립니다. 만약 사람들이 이 모델을 유용하다고 느끼고 성공적이라고 판단한다면, 훨씬 더 큰 학습 예산(training budget)을 투입하여 v2를 만들 의향도 있습니다!

AI 자동 생성 콘텐츠

원문 바로가기

저는 신경망 TTS (Text-to-Speech) 모델이 현실적으로 얼마나 작아질 수 있는지 실험해 왔으며, 방금 Inflect-Nano-v1을

요약

핵심 포인트

댓글