본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 14. 06:02

Derpy Turtle: The Kokoro Trainer를 만들었습니다: RVC로 더 나은 Kokoro 음성을 학습시키기 위한 GUI

요약

Derpy Turtle: The Kokoro Trainer는 Kokoro 음성 검색과 RVC(Retrieval-based Voice Conversion) 기술을 결합하여 로컬 환경에서 고품질의 음성 변환 출력을 생성하는 Windows GUI 도구입니다. 이 앱은 대상 오디오를 기반으로 RVC 모델을 학습시키고, Kokoro 음성을 정교화한 후, 최종적으로 이를 연결하여 사용자가 복잡한 수동 과정을 거치지 않고도 완성된 `_rvc.wav` 파일을 얻을 수 있도록 워크플로우를 자동화합니다. 개발자는 높은 유사도 점수만을 쫓는 것보다, 깨끗한 음성 소스를 사용하여 RVC가 최종적인 음성 정체성을 처리하도록 하는 것이 더 효과적임을 발견했습니다. 이 도구는 사용자 친화적인 인터페이스와 CUDA 지원을 통해 로컬 음성 실험의 접근성을 크게 높였습니다.

핵심 포인트

  • Derpy Turtle은 Kokoro 음성과 RVC를 결합하여 고품질의 음성 변환 워크플로우를 자동화하는 GUI입니다.
  • 최적의 결과물을 얻기 위해서는 깨끗한 대상 오디오로 RVC 모델을 학습시키고, Kokoro는 안정적인 음성을 확보하는 용도로 사용하는 것이 중요합니다.
  • 이 도구는 사용자 친화적인 인터페이스(GUI)와 큐 관리, ETA 로깅 등의 기능을 포함하여 복잡한 수동 과정을 단순화했습니다.
  • CUDA 지원은 실행 시간을 극적으로 단축시켜 (예: 26시간 -> 4시간), 로컬 음성 실험의 실용성을 높였습니다.

저는 Derpy Turtle: The Kokoro Trainer라는 도구를 작업해 왔습니다. 처음에는 Kokoro 음성을 위한 무작위 보행 (random-walk) 실험으로 시작했지만, 이제는 Kokoro 음성 검색과 RVC 음성 변환 (voice conversion)을 결합하여 더 나은 로컬 음성 출력을 생성하는 Windows GUI라는 독자적인 결과물로 성장했습니다.

요약하자면:

Kokoro는 음성 생성에 능숙합니다. RVC는 대상 음성을 맞추는 데 능숙합니다. Derpy Turtle은 이 둘을 연결합니다.

이 앱을 통해 다음과 같은 작업이 가능합니다:

  • 대상 음성 클립 로드.
  • 해당 대상을 기준으로 Kokoro .pt 음성 검색 및 정교화 (refine).
  • 대상 오디오로부터 RVC 모델 학습.
  • Kokoro 음성 생성.
  • 생성된 출력을 학습된 RVC 모델로 자동 전달.
  • 최종 변환된 _rvc.wav 저장.

제가 배운 중요한 교훈은 매우 높은 Kokoro 유사도 점수 (similarity score)만을 쫓는 것으로는 충분하지 않다는 것입니다. 매우 긴 실행 후에도 저는 80% 초반/중반 범위에서 정체되어 있었습니다. 출력물은 개선되었지만, 여전히 충분히 비슷하게 들리지 않았습니다. 더 나은 접근 방식은 Kokoro를 깨끗한 음성 소스 (clean speech source)로 사용하고, RVC가 최종적인 음성 정체성 (voice identity)을 처리하도록 하는 것이었습니다.

따라서 현재의 워크플로우는 다음과 같습니다:

  1. 깨끗한 대상 오디오로부터 RVC 모델 학습.
  2. 안정적인 음성을 얻기 위해 짧은 Kokoro 검색/정교화 실행.
  3. “Use Latest RVC” 활성화.
  4. 대사 생성.
  5. 최적화 점수 (optimizer score)뿐만 아니라 _rvc.wav를 직접 듣기.

GUI에는 프리셋, 큐 관리 (queue management), 예상 소요 시간 (ETA) 로깅, 추가 대상 오디오 지원, 오디오별 전사 (transcript) 매핑, CUDA 지원, 그리고 초기 설정을 처리하는 런처 .exe가 포함되어 있습니다.

몇 가지 실질적인 참고 사항:

  • 깨끗한 학습 오디오가 필요합니다. 규모가 크고 노이즈가 있는 데이터셋보다 규모가 작더라도 깨끗한 데이터셋이 더 낫습니다.
  • RVC는 음색/정체성 (timbre/identity)에는 도움이 되지만, 잘못된 속도나 발음을 마법처럼 고쳐주지는 않습니다.
  • Kokoro 유사도 점수는 RVC 적용 전의 점수이므로, 점수가 변하지 않더라도 최종 변환된 오디오는 훨씬 더 좋게 들릴 수 있습니다.
  • CUDA는 엄청난 차이를 만듭니다. 제 RTX 3060에서 GPU 모드를 사용했을 때, 한 번의 실행 시간이 CPU 기준 약 26시간에서 약 4시간으로 단축되었습니다.

비상업적 용도로는 100% 무료입니다. 개인적/연구 목적의 사용은 허용되지만, 상업적 이용을 원하는 분은 저에게 연락해야 합니다.

목표는 로컬 음성 실험 (local voice experimentation)을 더 쉽게 접근할 수 있도록 만드는 것입니다. 저는 모든 것을 최대한 사용자 친화적 (user-friendly)으로 만들었습니다. 기술적인 지식이 없는 사용자도 .exe 파일을 실행하고, 대상 오디오를 로드하고, 학습/정제 (train/refine)하여, 수많은 도구들을 수동으로 연결하는 과정 없이 실제로 사용 가능한 결과물을 얻을 수 있는 무언가를 원했습니다.

혹시 실제로 경험해보고 싶은 분이 있다면, 제 게임 여기에 이 프로세스를 추가해 두었습니다. 모든 목소리는 이 트레이너 (trainer)를 사용하여 학습되었습니다.

즐겁게 사용하세요!

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0