Derpy Turtle: The Kokoro Trainer를 만들었습니다: RVC로 더 나은 Kokoro 음성을 학습시키기 위한 GUI

원문 발행 2026. 05. 13. 07:24원문 언어 영어AI 한국어 번역Reddit AI Engineering 원문 보기

요약

Derpy Turtle: The Kokoro Trainer는 Kokoro 음성 검색과 RVC(Retrieval-based Voice Conversion) 기술을 결합하여 로컬 환경에서 고품질의 음성 변환 출력을 생성하는 Windows GUI 도구입니다. 이 앱은 대상 오디오를 기반으로 RVC 모델을 학습시키고, Kokoro 음성을 정교화한 후, 최종적으로 이를 연결하여 사용자가 복잡한 수동 과정을 거치지 않고도 완성된 `_rvc.wav` 파일을 얻을 수 있도록 워크플로우를 자동화합니다. 개발자는 높은 유사도 점수만을 쫓는 것보다, 깨끗한 음성 소스를 사용하여 RVC가 최종적인 음성 정체성을 처리하도록 하는 것이 더 효과적임을 발견했습니다. 이 도구는 사용자 친화적인 인터페이스와 CUDA 지원을 통해 로컬 음성 실험의 접근성을 크게 높였습니다.

핵심 포인트

Derpy Turtle은 Kokoro 음성과 RVC를 결합하여 고품질의 음성 변환 워크플로우를 자동화하는 GUI입니다.
최적의 결과물을 얻기 위해서는 깨끗한 대상 오디오로 RVC 모델을 학습시키고, Kokoro는 안정적인 음성을 확보하는 용도로 사용하는 것이 중요합니다.
이 도구는 사용자 친화적인 인터페이스(GUI)와 큐 관리, ETA 로깅 등의 기능을 포함하여 복잡한 수동 과정을 단순화했습니다.
CUDA 지원은 실행 시간을 극적으로 단축시켜 (예: 26시간 -> 4시간), 로컬 음성 실험의 실용성을 높였습니다.

저는 Derpy Turtle: The Kokoro Trainer라는 도구를 작업해 왔습니다. 처음에는 Kokoro 음성을 위한 무작위 보행 (random-walk) 실험으로 시작했지만, 이제는 Kokoro 음성 검색과 RVC 음성 변환 (voice conversion)을 결합하여 더 나은 로컬 음성 출력을 생성하는 Windows GUI라는 독자적인 결과물로 성장했습니다.

요약하자면:

Kokoro는 음성 생성에 능숙합니다. RVC는 대상 음성을 맞추는 데 능숙합니다. Derpy Turtle은 이 둘을 연결합니다.

이 앱을 통해 다음과 같은 작업이 가능합니다:

대상 음성 클립 로드.
해당 대상을 기준으로 Kokoro .pt 음성 검색 및 정교화 (refine).
대상 오디오로부터 RVC 모델 학습.
Kokoro 음성 생성.
생성된 출력을 학습된 RVC 모델로 자동 전달.
최종 변환된 _rvc.wav 저장.

제가 배운 중요한 교훈은 매우 높은 Kokoro 유사도 점수 (similarity score)만을 쫓는 것으로는 충분하지 않다는 것입니다. 매우 긴 실행 후에도 저는 80% 초반/중반 범위에서 정체되어 있었습니다. 출력물은 개선되었지만, 여전히 충분히 비슷하게 들리지 않았습니다. 더 나은 접근 방식은 Kokoro를 깨끗한 음성 소스 (clean speech source)로 사용하고, RVC가 최종적인 음성 정체성 (voice identity)을 처리하도록 하는 것이었습니다.

따라서 현재의 워크플로우는 다음과 같습니다:

깨끗한 대상 오디오로부터 RVC 모델 학습.
안정적인 음성을 얻기 위해 짧은 Kokoro 검색/정교화 실행.
“Use Latest RVC” 활성화.
대사 생성.
최적화 점수 (optimizer score)뿐만 아니라 _rvc.wav를 직접 듣기.

GUI에는 프리셋, 큐 관리 (queue management), 예상 소요 시간 (ETA) 로깅, 추가 대상 오디오 지원, 오디오별 전사 (transcript) 매핑, CUDA 지원, 그리고 초기 설정을 처리하는 런처 .exe가 포함되어 있습니다.

몇 가지 실질적인 참고 사항:

깨끗한 학습 오디오가 필요합니다. 규모가 크고 노이즈가 있는 데이터셋보다 규모가 작더라도 깨끗한 데이터셋이 더 낫습니다.
RVC는 음색/정체성 (timbre/identity)에는 도움이 되지만, 잘못된 속도나 발음을 마법처럼 고쳐주지는 않습니다.
Kokoro 유사도 점수는 RVC 적용 전의 점수이므로, 점수가 변하지 않더라도 최종 변환된 오디오는 훨씬 더 좋게 들릴 수 있습니다.
CUDA는 엄청난 차이를 만듭니다. 제 RTX 3060에서 GPU 모드를 사용했을 때, 한 번의 실행 시간이 CPU 기준 약 26시간에서 약 4시간으로 단축되었습니다.

비상업적 용도로는 100% 무료입니다. 개인적/연구 목적의 사용은 허용되지만, 상업적 이용을 원하는 분은 저에게 연락해야 합니다.

목표는 로컬 음성 실험 (local voice experimentation)을 더 쉽게 접근할 수 있도록 만드는 것입니다. 저는 모든 것을 최대한 사용자 친화적 (user-friendly)으로 만들었습니다. 기술적인 지식이 없는 사용자도 .exe 파일을 실행하고, 대상 오디오를 로드하고, 학습/정제 (train/refine)하여, 수많은 도구들을 수동으로 연결하는 과정 없이 실제로 사용 가능한 결과물을 얻을 수 있는 무언가를 원했습니다.

혹시 실제로 경험해보고 싶은 분이 있다면, 제 게임 여기에 이 프로세스를 추가해 두었습니다. 모든 목소리는 이 트레이너 (trainer)를 사용하여 학습되었습니다.

즐겁게 사용하세요!

AI 자동 생성 콘텐츠

원문 바로가기

Insights

Derpy Turtle: The Kokoro Trainer를 만들었습니다: RVC로 더 나은 Kokoro 음성을 학습시키기 위한 GUI

요약

핵심 포인트

댓글

Ryder, 중고차 수익 전망이 약 4,000만 달러로 상승함에 따라 2026년 비교 가능 EPS를 $14.40-$14.80로 예측

AMD의 새로운 X100 칩 라인업, Strix Halo를 로봇 분야로 확장 – 물리적 AI를 위한 APU는 Zen 5 CPU와 RDNA

로컬 AI가 클라우드를 따라잡은 날: ds4, DeepSeek V4 Flash, 그리고 개발자들에게 일어난 변화

Vue, Laravel 및 AI를 활용하여 브라우저 기반의 픽셀 아트/애니메이션 에디터 제작기

Ryder, 중고차 수익 전망이 약 4,000만 달러로 상승함에 따라 2026년 비교 가능 EPS를 $14.40-$14.80로 예측

AMD의 새로운 X100 칩 라인업, Strix Halo를 로봇 분야로 확장 – 물리적 AI를 위한 APU는 Zen 5 CPU와 RDNA

로컬 AI가 클라우드를 따라잡은 날: ds4, DeepSeek V4 Flash, 그리고 개발자들에게 일어난 변화

Vue, Laravel 및 AI를 활용하여 브라우저 기반의 픽셀 아트/애니메이션 에디터 제작기