Higgs-tts-2-3b-base 모델: 텍스트 음성 변환 (Text-to-Speech) 파운데이션 모델
요약
BosonAI가 개발한 Higgs-tts-2-3b-base는 58억 개의 파라미터를 가진 TTS 파운데이션 모델입니다. Llama-3.2-3B 백본과 DualFFN 오디오 어댑터를 결합하여 자연스러운 음성을 생성합니다.
핵심 포인트
- Llama-3.2-3B 백본 기반의 58억 파라미터 모델
- DualFFN 오디오 어댑터를 통한 효율적인 연산
- 텍스트 입력으로부터 표현력이 풍부한 음성 생성
higgs-tts-2-3b-base는 bosonai가 구축한 텍스트 음성 변환 (Text-to-Speech, TTS) 파운데이션 모델로, 텍스트 입력으로부터 표현력이 풍부하고 자연스러운 음성을 생성합니다. 이 모델은 총 58억 개의 파라미터로 구성되어 있습니다. 구체적으로는 36억 개의 파라미터를 가진 Llama-3.2-3B 백본 (backbone)에, 기본 LLM과 동일한 훈련 및 추론 연산 비용으로 작동하는 22억 개의 파라미터를 가진 DualFFN 오디오 어댑터 (audio adapter)가 강화된 형태입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hacker Noon AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기