Open-LLM-VTuber/Open-LLM-VTuber

요약

Open-LLM-VTuber는 실시간 음성 대화, 시각 인식, 그리고 생동감 있는 Live2D 아바타 기능을 결합한 독특한 AI 상호작용 플랫폼입니다. 이 시스템은 모든 기능이 오프라인으로 구동 가능하며, 사용자가 원하는 캐릭터의 외모와 성격(페르소나)을 커스터마이징할 수 있습니다. 웹 버전과 데스크톱 클라이언트 모드를 모두 지원하여, 투명 배경의 애완 동물 모드 등 다양한 환경에서 AI 동반자와 상호작용할 수 있도록 설계되었습니다.

핵심 포인트

**오프라인 및 프라이버시 중심:** 로컬 모델을 사용하여 인터넷 연결 없이도 모든 기능을 실행할 수 있어 높은 보안성과 개인 정보 보호를 보장합니다.
**고급 멀티모달 상호작용:** 실시간 음성 대화(ASR/TTS), 시각 인식(카메라, 스크린샷 지원), 터치 피드백 등 복합적인 기능을 제공하여 몰입도를 높였습니다.
**광범위한 커스터마이징 및 호환성:** Ollama, OpenAI API, Gemini, Claude 등 다양한 LLM 백엔드를 통합할 수 있으며, Live2D 모델과 프롬프트 수정으로 캐릭터를 자유롭게 맞춤 설정할 수 있습니다.
**다양한 사용 환경 지원:** macOS, Linux, Windows 등 크로스 플랫폼을 지원하며, 웹 버전 외에도 투명 배경의 데스크톱 애완 동물 모드 등 사용자 친화적인 클라이언트 경험을 제공합니다.

📢 v2.0 개발 진행 중: 우리는 Open-LLM-VTuber v2.0 — 코드베이스의 완전한 재작성에 집중하고 있습니다. v2.0 은 현재 초기 논의 및 계획 단계입니다. 기능 요청을 위한 새로운 이슈 또는 풀 리퀘스트를 열지 마시기를 부탁드립니다. v2 논의에 참여하거나 기여하려면 Zulip 의 개발자 커뮤니티에 가입하세요. 주 회차 일정은 Zulip 에서 발표됩니다. 우리는 v1 에 대한 버그 수정을 계속 진행할 것이며, 기존 풀 리퀘스트를 처리할 것입니다.

ENGLISH README | 中文 README | 한국어 README | 日本語 README

Common Issues 문서는 (중국어): https://docs.qq.com/pdf/DTFZGQXdTUXhIYWRq

User Survey: https://forms.gle/w6Y6PiHTZr1nzbtWA

조례문서 (중국어): https://wj.qq.com/s2/16150415/f50a/

⚠️ 이 프로젝트는 초기 단계에 있으며 현재 개발 활동이 적습니다.

⚠️ 원격 서버를 실행하고 다른 기계에서 접근하는 경우, 예를 들어 컴퓨터에서 서버를 실행하고 휴대폰에서 접근하는 경우, https 를 구성해야 합니다. 왜냐하면 프론트엔드의 마이크는 보안 컨텍스트 (즉, https 또는 localhost) 에서만 시작하기 때문입니다. MDN Web Doc 을 참조하세요. 따라서 원격 기계 (non-localhost) 에서 페이지에 접근하려면 역프록시와 함께 https 를 구성해야 합니다.

Open-LLM-VTuber 는 실시간 음성 대화 와 시각 인식 을 지원하며, 또한 생동감 있는 Live2D 아바타 를 특징으로 하는 독특한 음성 상호작용 AI 컴플리언스 입니다. 모든 기능은 컴퓨터에서 완전히 오프라인으로 실행할 수 있습니다!

개인용 AI 컴플리언스로 취급할 수 있습니다 — 가상 여자친구 나 남자친구, 귀여운 애완 동물 또는 다른 캐릭터를 원하든, 기대에 부응할 수 있습니다. 프로젝트는 Windows, macOS, 및 Linux 를 완전히 지원하며, 두 가지 사용 모드를 제공합니다: 웹 버전과 데스크톱 클라이언트 (특히 투명 배경 데스크톱 애완 동물 모드에 대한 특별한 지원을 제공하여 AI 컴플리언스를 화면의 어디든 함께할 수 있습니다).

장기 기억 기능은 일시적으로 제거되었습니다 (곧 돌아올 것입니다). 채팅 로그의 지속적 저장 덕분에, 귀중한 상호작용 순간을 잃지 않고 이전未完의 대화를 계속할 수 있습니다.

백엔드 지원 측면에서, 우리는 다양한 LLM 추론, 텍스트 음성 변환 및 음성 인식 솔루션을 통합했습니다. AI 컴플리언스를 커스터마이징하고 싶다면 캐릭터 커스터마이징 가이드를 참조하여 외모와 퍼소나를 커스터마이징할 수 있습니다.

이 프로젝트가 Open-LLM-Vtuber 로 명명된 이유는, 초기 개발 목표는 Windows 를 제외한 플랫폼에서 오프라인으로 실행할 수 있는 오픈 소스 솔루션을 사용하여 폐쇄형 AI Vtuber neuro-sama 를 재현하는 것이었기 때문입니다.

🖥️ 크로스 플랫폼 지원: macOS, Linux, 및 Windows 와 완벽한 호환성. NVIDIA 와 non-NVIDIA GPU 를 지원합니다. CPU 나 클라우드 API 를 사용하여 리소스 집약적 작업을 실행할 수 있습니다. 일부 구성 요소는 macOS 에서 GPU 가속을 지원합니다.
🔒 오프라인 모드 지원: 로컬 모델을 사용하여 완전히 오프라인으로 실행 - 인터넷은 필요 없습니다. 대화는 장치에 남아 있어, 프라이버시 및 보안이 보장됩니다.
💻 매력적이고 강력한 웹 및 데스크톱 클라이언트: 웹 버전과 데스크톱 클라이언트 사용 모드를 제공합니다. 풍부한 상호작용 기능과 개인화 설정을 지원합니다. 데스크톱 클라이언트는 창 모드와 데스크톱 애완 동물 모드 사이를 자유롭게 전환할 수 있으며, AI 컴플리언스를 항상 옆에 두게 됩니다.
🎯

고급 상호작용 기능

👁️ 시각적 인식: 카메라, 화면 녹화 및 스크린샷 지원하여 AI 동반자가 당신과 화면을 볼 수 있도록 함
🎤 헤드폰 없이 음성 인터럽트 (AI 는 자신의 목소리를 듣지 않음)
🫱 터치 피드백: 클릭 또는 드래그를 통해 AI 동반자와 상호작용
😊 Live2D 표현: 백엔드에서 모델의 표정을 제어하기 위해 감정 매핑 설정
🐱 펫 모드: 투명한 배경, 전역 최상단, 마우스 클릭 통과 지원 - 화면 어디든 AI 동반자를 드래그 가능
💭 AI 의 내면적 생각 표시: 말하지 않고도 AI 의 표현, 생각 및 행동을 볼 수 있도록 함
🗣️ AI 선제적 발화 기능
💾 채팅 로그 지속성: 언제든지 이전 대화로 전환 가능
🌍 TTS 번역 지원 (예: 중국어로 대화하며 AI 는 일본어 목소리 사용)

🧠

광범위한 모델 지원

🤖 대형 언어 모델 (LLM): Ollama, OpenAI (및 모든 OpenAI 호환 API), Gemini, Claude, Mistral, DeepSeek, Zhipu AI, GGUF, LM Studio, vLLM 등
🎙️ 자동 음성 인식 (ASR): sherpa-onnx, FunASR, Faster-Whisper, Whisper.cpp, Whisper, Groq Whisper, Azure ASR 등
🔊 텍스트 음성 변환 (TTS): sherpa-onnx, pyttsx3, MeloTTS, Coqui-TTS, GPTSoVITS, Bark, CosyVoice, Edge TTS, Fish Audio, Azure TTS 등

🔧

고도로 커스터마이징 가능

⚙️ 간단 모듈 구성: 코드에 직접 관여하지 않고 간단한 구성 파일 수정을 통해 다양한 기능 모듈을 전환
🎨 캐릭터 커스터마이징: AI 동반자에게 고유한 외관을 부여하기 위해 커스텀 Live2D 모델을 가져오기. Prompt 를 수정하여 AI 동반자의 퍼소나를 형성. 원하는 목소리를 부여하기 위해 음성 클로닝 수행 - 🧩
🔌 유연한 에이전트 구현: HumeAI EVI, OpenAI Her, Mem0 등 다양한 에이전트 아키텍처를 통합하기 위해 Agent 인터페이스를 상속하고 구현
✅ 좋은 확장성: 모듈 설계로 인해 언제든지 새로운 기능을 추가할 수 있으며, 자신의 LLM, ASR, TTS 및 기타 모듈 구현을 쉽게 추가 가능
⚙️

개발자에게 모든 사람이 사용할 수 있도록 오픈소싱 및 공유를 감사드립니다.

이 girlfriend 는 100,000 회 이상 사용됨

설치에 대해서는 문서의 Quick Start 섹션을 참조하세요.

⚠️ v1.0.0

변경 사항이 발생하며 재 배포가 필요합니다. 아래 방법을 통해 업데이트할 수 있지만, conf.yaml 파일은 호환성이 없으며 대부분의 의존性是 uv 를 사용하여 다시 설치해야 합니다.

v1.0.0 이전 버전에서 온 분들에게는 최신 배포 가이드로 이 프로젝트를 다시 배포하는 것을 권장합니다.

v1.0.0 이후의 버전을 설치한 경우, uv run update.py 를 사용하여 업데이트하세요.

대부분의 파일은 프로젝트 폴더에 저장됩니다. Python 의존성과 모델도 포함됨.

ModelScope 또는 Hugging Face 를 통해 다운로드한 모델은 또한 MODELSCOPE_CACHE 또는 HF_HOME 에 있을 수 있습니다. 프로젝트의 models 디렉토리에 보관하는 것을 목표로 하지만, 확인하는 것이 좋습니다.

설치 가이드를 검토하여 더 이상 필요 없는 추가 도구를 확인하세요. 예: uv, ffmpeg, deeplx

개발 가이드를 확인하세요.

LLM 으로 구동되는 Live2D 데스크톱 어시스턴트! Windows 와 MacOS 모두 지원하며, 화면 감지, 클립보드 내용 가져오기, 고유한 목소리로 음성 명령 응답 기능 제공. 음성 깨우기, 노래 능력 및 좋아하는 캐릭터와의 원활한 상호작용을 위한 완전한 컴퓨터 제어 포함.

이 프로젝트에는 Live2D Inc. 가 제공한 Live2D 샘플 모델이 포함되어 있습니다. 이 자산은 Live2D 무료 자료 라이선스 계약 (Live2D Free Material License Agreement) 과 Live2D Cubism 샘플 데이터 사용 약관 (Terms of Use for Live2D Cubism Sample Data) 에 따라 별도로 라이선싱됩니다. 이 프로젝트의 MIT 라이선스에 포함되지 않습니다.

참고: 상업적 용도, 특히 중규모 또는 대규모 기업에서 이러한 Live2D 샘플 모델을 사용할 경우 추가 라이선스 요구 사항이 적용될 수 있습니다. 이 프로젝트를 상업적으로 사용할 계획이라면 Live2D Inc. 에서 적절한 권한을 확보했는지 확인하거나, 이 모델이 없는 프로젝트 버전을 사용하세요.

이 프로젝트가 가능하도록 기여자 및 유지 관리자들에게 감사드립니다.

AI 자동 생성 콘텐츠

원문 바로가기

Open-LLM-VTuber/Open-LLM-VTuber

요약

핵심 포인트

댓글