GLaDOS TTS 빌드 키트: Portal 1 및 2 소유 시 GLaDOS 목소리 학습
요약
이 기술 기사는 Portal 및 Portal 2 게임 파일을 소유한 사용자가 GLaDOS 스타일의 TTS 목소리를 로컬 환경에서 미세 조정할 수 있도록 설계된 빌드 키트를 소개합니다. 이 파이프라인은 게임 파일에서 음성 라인을 추출하고, 이를 깨끗하게 전사하며, 필터링하는 과정을 거쳐 최종적으로 OmniVoice 모델을 학습시키는 전체 워크플로우를 제공합니다. 사용자는 외부 데이터셋이나 모델 가중치를 다운로드할 필요 없이 자신의 로컬 게임 파일을 사용하여 재현 가능하고 개인화된 TTS 목소리를 구축할 수 있습니다.
핵심 포인트
- 게임 소유자가 로컬에서 GLaDOS TTS 학습 파이프라인을 실행할 수 있게 함 (재현성 강조).
- 프로젝트는 음성 추출, 24kHz 모노 PCM 변환, Cohere Transcribe를 사용한 전사 및 필터링 등 전체 워크플로우를 포함함.
- 사용자는 자신의 로컬 게임 파일(Portal/Portal 2 VPK)을 입력으로 제공하며, 모든 데이터 처리는 로컬에서 이루어짐.
- OmniVoice 모델 학습에 필요한 VRAM 최적화 설정값(예: `batch_tokens` 조정)이 제시되어 하드웨어 제약 조건에 대응할 수 있도록 도움을 줌.
Omnivoice 를 사용하여 설치된 Portal 과 Portal 2 로컬 복사본에서 GLaDOS 스타일의 TTS 목소리를 미세 조정하기 위한 저장소를 만들었습니다:
https://github.com/JoeHelbing/glados-tts-build-kit
작성문: https://www.joehelbing.net/post/glados-tts
중요한 점: 이 프로젝트에는 Valve 오디오, 추출된 클립, 전사 (transcripts), 샘플, 체크포인트 또는 학습된 가중치 (weights) 를 포함하지 않습니다. 이는 단순히 파이프라인만입니다. 사용자는 자체 로컬 게임 파일을 제공하고 모든 생성 데이터는 무시됨 (ignored) 로컬 data/ 경로에 저장됩니다.
이 것이 하는 일:
- 로컬 Portal / Portal 2 VPK 에서 GLaDOS 목소리 라인을 추출합니다
- Source MP3-in-WAV 파일들을 깨끗한 24 kHz 모노 PCM 으로 변환합니다
- Cohere Transcribe 를 통해 CohereX 로 클립을 전사합니다
- Portal Wiki 전사를 토록 (ground-truth reference) 참조로 사용합니다
- 두 전사 원천을 조정하고 불량/불일치 클립을 필터링합니다
- 필요한 경우 혼란스러운 클립을 손으로 검토할 수 있는 작은 로컬 웹 UI 를 제공합니다
- 매니페스트를 생성하고 로컬 OmniVoice TTS 모델을 학습시킵니다
기본적으로, 이미 게임을 소유한 사람이 다른 사람의 데이터셋이나 모델 가중치를 다운로드하는 대신 로컬에서 파이프라인을 실행할 수 있는 재현 가능한 (reproducible) 것을 원했습니다.
공급자 인정: systemofapwne/piper-de-glados 에서 원래 게임 파일 추출 아이디어를 얻었으며, 이 버전은 전체 소스 전용 학습 파이프라인을 기반으로 구축했습니다.
수정 (EDIT)
학습 중 총 VRAM 사용량은 17,942 MiB 입니다.
내가 수행한 학습에 관련된 VRAM 사용량 설정은 아래 값들을 사용했으며, 일부 값을 변경하면 전체 미세 조정 파이프라인을 16GB 카드에 들어맞도록 약간 줄일 수 있습니다:
batch_tokens: 2048
max_sample_tokens: 1500
max_batch_size: 16
...
16GB 카드에 대한 제의는 batch_tokens 를 1024 로 설정하고 gradient_accumulation_steps 를 8 으로 설정하는 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기