JaiTTS: 태국어 음성 복제 모델

우리는 대규모 태국어 중심 음성 코퍼스 (corpus) 에 대한 연속적 학습 (continual training) 을 통해 구축한 최첨단 태국어 음성 복제 텍스트-음성 변환 (text-to-speech, TTS) 모델인 JaiTTS-v1.0 을 제시합니다. 이 모델의 아키텍처는 토크나이저 없는 오토리귀시브 TTS 모델인 VoxCPM 에서 차용되었습니다. JaiTTS-v1.0 은 명시적인 텍스트 정규화 (text normalization) 없이도 숫자와 태국어-영어 코드 스위칭 (code-switching) 을 직접 처리하며, 이는 실제 환경에서 매우 흔하게 나타나는 현상입니다. 우리는 단기간 음성 생성과 장기간 음성 생성에 대해 모델을 테스트하여 많은 실제 세계 사용 사례를 반영했습니다. JaiTTS-v1.0 은 단기간 작업에서 인간 기준 진실 (human ground truth) 인 1.98% 를 넘어서는 1.94% 의 문자 오류율 (CER) 을 달성하여 최첨단 성능을 보였으며, 장기간 작업에서는 인간 기준 진실과 동등한 성능을 발휘했습니다. 인간 평가 판단에서 우리 모델은 상업용 플래그십 제품 대비 쌍대 비교 (pairwise comparisons) 에서 400 회 중 283 회 승리하고 58 회만 패배하여 우위를 점했습니다.

Insights

JaiTTS: 태국어 음성 복제 모델

요약

핵심 포인트

댓글

Secret Service 위협 사례 40% 급증

세계 경제에서 연이어 발생하는 초크 포인트 (Choke point)

숨겨진 프롬프트 인젝션 (Hidden Prompt Injection): 브라우저 에이전트 해킹 및 방어 체계 테스트

안전한 에이전트 롤백 전략이 "Kubernetes를 건드리지 않는 것"이라고 생각했는데, OpenClaw + Argo CD 설정을 보고 생각이

Secret Service 위협 사례 40% 급증

세계 경제에서 연이어 발생하는 초크 포인트 (Choke point)

숨겨진 프롬프트 인젝션 (Hidden Prompt Injection): 브라우저 에이전트 해킹 및 방어 체계 테스트

안전한 에이전트 롤백 전략이 "Kubernetes를 건드리지 않는 것"이라고 생각했는데, OpenClaw + Argo CD 설정을 보고 생각이