Voice-to-voice 챗봇 업데이트

저는 몇 달 동안 퇴근 후 시간을 활용해 이 프로젝트를 작업하며 지속적으로 개선해 왔습니다. 이제 챗봇은 (SSE 스트리밍 덕분에) 실시간에 가까운 속도를 구현했으며, 마지막에 말한 내용을 문맥(Context)으로 유지하면서도 대화 중단(Interruptible)이 가능한 단계에 도달했습니다. 100% 로컬 환경에서 작동하며 Qwen3.5-397B (Unsloth의 UD-Q3_K_XL), Whisper-small STT, 그리고 ONNX 기반의 커스텀 SNAC 디코더를 사용하는 Orpheus Q4_K_XL TTS를 통해 구동됩니다. VRAM 사용량은 21.3 GB 이하로 유지되어 24 GB GPU에서 연산 그래프(Compute graphs)를 위한 충분한 여유 공간을 남겨둡니다. Qwen의 MoE 전문가(Experts)를 위한 시스템 RAM은 약 150 GB를 차지합니다. 이 시스템은 131,072 토큰의 bf16 KV 캐시(Qwen3.5는 Q8 KV 사용 시 불안정함)와 함께 실행됩니다. 이는 몇 시간 동안의 대화를 나누기에 충분한 양입니다. GitHub 코드는 곧 공개될 예정입니다. 집안일(Honey-do list)을 마친 후 오늘 저녁에 업로드할 수 있을 것 같습니다. submitted by /u/Responsible_Fig_1271 [link] [comments]

Insights

Voice-to-voice 챗봇 업데이트

요약

핵심 포인트

댓글

Olix, 33억 달러 기업 가치로 유럽 최대 규모의 칩 투자 유치

TotalEnergies, Shell 및 KKR과 유럽 재생 에너지 계약 체결

KKR, 역대 최대 규모 인프라 펀드 조성 위해 192억 달러 조달

파일럿 에이전트(Pilot Agent)란 무엇인가? 브라우저, 기계, 워크플로우를 제어하는 AI 에이전트 클래스

Olix, 33억 달러 기업 가치로 유럽 최대 규모의 칩 투자 유치

TotalEnergies, Shell 및 KKR과 유럽 재생 에너지 계약 체결

KKR, 역대 최대 규모 인프라 펀드 조성 위해 192억 달러 조달

파일럿 에이전트(Pilot Agent)란 무엇인가? 브라우저, 기계, 워크플로우를 제어하는 AI 에이전트 클래스