Reddit요약2026. 05. 04. 18:12

从零构建语音代理：完整本地化教程 (Mic → Whisper → GGUF LLM → Kokoro → Speaker)

요약

본 기술 기사는 마이크 입력부터 스피커 출력까지의 전체 음성 에이전트 파이프라인을 처음부터 구축하는 방법을 안내합니다. 이 과정은 Whisper를 이용한 STT, 로컬 GGUF LLM 처리, Kokoro를 사용한 TTS 등 여러 단계를 포함하며, 모든 단계가 스트리밍 방식으로 작동하여 실제 대화와 같은 낮은 지연 시간을 구현하는 것이 핵심입니다.

핵심 포인트

음성 에이전트의 전체 파이프라인(Mic → Whisper → LLM → Kokoro → Speaker)을 구축하는 실습 가이드 제공.
모든 구성 요소가 로컬에서 스트리밍 방식으로 작동하여 실제 대화 환경과 유사한 낮은 지연 시간을 구현함.
Whisper, GGUF LLM (llama.cpp), Kokoro 등 최신 오픈소스 기술 스택을 활용함.
각 장마다 실행 가능한 스크립트와 상세 가이드라인이 제공되어 학습 및 적용에 용이함.

voice-agents-from-scratch는 numbered, chapter-by-chapter repo 로 실시간 파이프라인 전체를 안내합니다:

마이크 캡처
Whisper 를 통한 STT
Local GGUF LLM (llama.cpp 를 통해)
Kokoro 를 통한 TTS
스피커 출력

모든 것이 스트리밍됩니다 - TTS 가 시작하기 전에 LLM 응답을 기다리지 않습니다. 이것이 실제 대화처럼 느껴지는 부분입니다.

장:

소개
오디오 I/O
음성 인식 (STT)
텍스트 음성 변환 (TTS)
전체 음성 루프
실시간 시스템
도구
성격
프로젝트

각 장은 실행 가능한 스크립트 + 짧은 CODE.md 가이드라인입니다. 또한 작은 공유 라이브러리가 있어 실제 시스템이 아닌 단순한 개별 호출로만 구성된 것이 아니라 어떻게 구성되는지 확인할 수 있습니다.

완전히 로컬인 것이 중요한 이유: 지연 시간을 실제로 볼 수 있습니다. 워밍업, 첫 오디오 시간, 스트리밍 청크 크기 - 이는 자신의 머신에서 실행할 때 추상화가 아닙니다.

배포 장을 계획하고 있으며 modal.com 를 사용하려는 것으로 생각됩니다. 기원과 제안은 환영합니다.

저장소: https://github.com/pguso/voice-agents-from-scratch

원래는 Node.js 를 사용하여 이 저장소를 게시하고 싶었지만, Node.js 의 생태계는 아직 준비되지 않았습니다. Kokoro-JS npm 패키지는 매우 좋지만, Whisper 지원 또는 일반적인 오디오 처리에 대해서는 좋은 옵션이 없습니다.

아키텍처나 마주친 트레이드 오프에 대한 질문에 답변할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

从零构建语音代理：完整本地化教程 (Mic → Whisper → GGUF LLM → Kokoro → Speaker)

요약

핵심 포인트

댓글