인터넷 유명인 Feng Ge를 실시간 전화가 가능한 AI 분신으로 만든 프로젝트
요약
인터넷 유명인의 목소리와 인격을 복제하여 실시간 전화 대화가 가능한 AI 분신 프로젝트가 오픈 소스로 공개되었습니다. 음성 인식, 대규모 모델, 음성 합성을 모듈식으로 최적화하여 지연 시간을 1초 미만으로 단축한 것이 특징입니다.
핵심 포인트
- 실시간 대화, 음색 복제, 인격 주입 기술의 통합
- 모듈식 최적화를 통해 응답 지연 시간을 1초 미만으로 단축
- 15초의 오디오 데이터만으로 정교한 음성 합성 가능
- Nüwa Skill을 활용한 인격 증류로 실제 인물과 유사한 대화 구현
- Claude Code나 Cursor를 활용해 일반인도 쉽게 설치 및 실행 가능
누군가 인터넷 유명인 Feng Ge를 실시간 전화가 가능한 AI 분신(doppelgänger)으로 만들었는데, 말하는 스타일까지 똑같습니다.
이것은 개발자 Leaf가 방금 오픈 소스로 공개한 프로젝트로, 실시간 대화(real-time conversation), 음색 복제(voice timbre cloning), 그리고 인격 주입(personality injection)이라는 세 가지 요소를 통합하였으며, 엔지니어링 지연 시간(latency)을 1초 미만으로 압축했습니다.
가장 인상적인 부분은 모듈식 최적화(modular optimization) 접근 방식입니다. 음성 파이프라인(voice pipeline)을 세 단계로 나누어 하나씩 해결했습니다:
・노이즈 감소 및 오작동 방지를 위해 Cartesia ink-whisper를 사용한 음성 인식(Speech recognition)
・대규모 모델(Large model) 선택: MiniMax 고속 버전을 사용하여 첫 단어 응답 시간을 361밀리초(milliseconds)로 단축
・오픈 소스인 VoxCPM 복제를 사용한 음성 합성(Speech synthesis): 단 15초의 자료만으로 복제 가능
초기에는 820초 정도 걸리던 음성 메시지 느낌의 지연 시간을 실제 전화와 다를 바 없는 23초 수준으로 혹독하게 최적화했습니다. 단순히 목소리만 닮은 것으로는 부족합니다. 이 프로젝트는 Nüwa Skill을 사용하여 인격 증류(personality distillation)를 수행하며, 라이브 스트리밍 영상에서 유행어, 사고 패턴, 표현 로직을 추출합니다. 그래서 대화를 나누다 보면 정말 그 사람이 직접 말하는 것 같은 느낌을 줍니다.
일반인들도 30분이면 실행할 수 있습니다:
- 프로젝트를 로컬(locally)에 클론(Clone)합니다.
- Claude Code나 Cursor에 넣고 "설치 및 실행을 도와줘"라고 말합니다.
- 두 개의 API 키를 입력하면 준비 끝입니다.
다른 누구로 바꾸고 싶냐고요? 쉽습니다. 15초 분량의 깨끗한 오디오와 인격 묘사만 준비하면 됩니다.
GitHub 링크는 댓글에 있습니다. 자신만의 AI 분신을 갖고 싶은 분들은 지금 바로 가져가세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @ayi_ainotes (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기