GLaDOS TTS 빌드 키트: Portal 1 및 2 소유 시 GLaDOS 목소리 학습

Omnivoice 를 사용하여 설치된 Portal 과 Portal 2 로컬 복사본에서 GLaDOS 스타일의 TTS 목소리를 미세 조정하기 위한 저장소를 만들었습니다:

https://github.com/JoeHelbing/glados-tts-build-kit

작성문: https://www.joehelbing.net/post/glados-tts

중요한 점: 이 프로젝트에는 Valve 오디오, 추출된 클립, 전사 (transcripts), 샘플, 체크포인트 또는 학습된 가중치 (weights) 를 포함하지 않습니다. 이는 단순히 파이프라인만입니다. 사용자는 자체 로컬 게임 파일을 제공하고 모든 생성 데이터는 무시됨 (ignored) 로컬 data/ 경로에 저장됩니다.

이 것이 하는 일:

로컬 Portal / Portal 2 VPK 에서 GLaDOS 목소리 라인을 추출합니다
Source MP3-in-WAV 파일들을 깨끗한 24 kHz 모노 PCM 으로 변환합니다
Cohere Transcribe 를 통해 CohereX 로 클립을 전사합니다
Portal Wiki 전사를 토록 (ground-truth reference) 참조로 사용합니다
두 전사 원천을 조정하고 불량/불일치 클립을 필터링합니다
필요한 경우 혼란스러운 클립을 손으로 검토할 수 있는 작은 로컬 웹 UI 를 제공합니다
매니페스트를 생성하고 로컬 OmniVoice TTS 모델을 학습시킵니다

기본적으로, 이미 게임을 소유한 사람이 다른 사람의 데이터셋이나 모델 가중치를 다운로드하는 대신 로컬에서 파이프라인을 실행할 수 있는 재현 가능한 (reproducible) 것을 원했습니다.

공급자 인정: systemofapwne/piper-de-glados 에서 원래 게임 파일 추출 아이디어를 얻었으며, 이 버전은 전체 소스 전용 학습 파이프라인을 기반으로 구축했습니다.

수정 (EDIT)

학습 중 총 VRAM 사용량은 17,942 MiB 입니다.

내가 수행한 학습에 관련된 VRAM 사용량 설정은 아래 값들을 사용했으며, 일부 값을 변경하면 전체 미세 조정 파이프라인을 16GB 카드에 들어맞도록 약간 줄일 수 있습니다:

batch_tokens: 2048  
max_sample_tokens: 1500  
max_batch_size: 16  
...

16GB 카드에 대한 제의는 batch_tokens 를 1024 로 설정하고 gradient_accumulation_steps 를 8 으로 설정하는 것입니다.

Insights

GLaDOS TTS 빌드 키트: Portal 1 및 2 소유 시 GLaDOS 목소리 학습

요약

핵심 포인트

댓글

🚗 테슬라 브리핑 · 7월 24일(금)

Anthropic이 Claude Code를 위한 완전 무료 프롬프트 라이브러리를 출시했습니다

AppFolio, 2026년 매출 전망을 11억 1,700만 달러~11억 2,700만 달러로 제시하며 Non-GAAP 영업이익률을

Andrew Ng가 설명하는 AI 에이전트를 활용한 지식 그래프(Knowledge Graph) 구축 방법

🚗 테슬라 브리핑 · 7월 24일(금)

Anthropic이 Claude Code를 위한 완전 무료 프롬프트 라이브러리를 출시했습니다

AppFolio, 2026년 매출 전망을 11억 1,700만 달러~11억 2,700만 달러로 제시하며 Non-GAAP 영업이익률을

Andrew Ng가 설명하는 AI 에이전트를 활용한 지식 그래프(Knowledge Graph) 구축 방법