
Voice-to-voice 챗봇 업데이트
요약
실시간 대화가 가능한 로컬 Voice-to-voice 챗봇 프로젝트의 업데이트 소식입니다. SSE 스트리밍을 통해 실시간성을 확보했으며, 대화 중단 기능과 문맥 유지 기능을 갖추고 있습니다.
핵심 포인트
- SSE 스트리밍을 활용한 실시간에 가까운 응답 속도 구현
- Qwen3.5, Whisper, Orpheus TTS를 활용한 100% 로컬 구동
- 대화 중단(Interruptible) 및 문맥 유지 기능 지원
- 24GB VRAM 환경에서 최적화된 연산 그래프 여유 공간 확보
저는 몇 달 동안 퇴근 후 시간을 활용해 이 프로젝트를 작업하며 지속적으로 개선해 왔습니다. 이제 챗봇은 (SSE 스트리밍 덕분에) 실시간에 가까운 속도를 구현했으며, 마지막에 말한 내용을 문맥(Context)으로 유지하면서도 대화 중단(Interruptible)이 가능한 단계에 도달했습니다. 100% 로컬 환경에서 작동하며 Qwen3.5-397B (Unsloth의 UD-Q3_K_XL), Whisper-small STT, 그리고 ONNX 기반의 커스텀 SNAC 디코더를 사용하는 Orpheus Q4_K_XL TTS를 통해 구동됩니다. VRAM 사용량은 21.3 GB 이하로 유지되어 24 GB GPU에서 연산 그래프(Compute graphs)를 위한 충분한 여유 공간을 남겨둡니다. Qwen의 MoE 전문가(Experts)를 위한 시스템 RAM은 약 150 GB를 차지합니다. 이 시스템은 131,072 토큰의 bf16 KV 캐시(Qwen3.5는 Q8 KV 사용 시 불안정함)와 함께 실행됩니다. 이는 몇 시간 동안의 대화를 나누기에 충분한 양입니다. GitHub 코드는 곧 공개될 예정입니다. 집안일(Honey-do list)을 마친 후 오늘 저녁에 업로드할 수 있을 것 같습니다. submitted by /u/Responsible_Fig_1271 [link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기