본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 04. 18:12

从零构建语音代理:完整本地化教程 (Mic → Whisper → GGUF LLM → Kokoro → Speaker)

요약

본 기술 기사는 마이크 입력부터 스피커 출력까지의 전체 음성 에이전트 파이프라인을 처음부터 구축하는 방법을 안내합니다. 이 과정은 Whisper를 이용한 STT, 로컬 GGUF LLM 처리, Kokoro를 사용한 TTS 등 여러 단계를 포함하며, 모든 단계가 스트리밍 방식으로 작동하여 실제 대화와 같은 낮은 지연 시간을 구현하는 것이 핵심입니다.

핵심 포인트

  • 음성 에이전트의 전체 파이프라인(Mic → Whisper → LLM → Kokoro → Speaker)을 구축하는 실습 가이드 제공.
  • 모든 구성 요소가 로컬에서 스트리밍 방식으로 작동하여 실제 대화 환경과 유사한 낮은 지연 시간을 구현함.
  • Whisper, GGUF LLM (llama.cpp), Kokoro 등 최신 오픈소스 기술 스택을 활용함.
  • 각 장마다 실행 가능한 스크립트와 상세 가이드라인이 제공되어 학습 및 적용에 용이함.

voice-agents-from-scratch는 numbered, chapter-by-chapter repo 로 실시간 파이프라인 전체를 안내합니다:

  • 마이크 캡처
  • Whisper 를 통한 STT
  • Local GGUF LLM (llama.cpp 를 통해)
  • Kokoro 를 통한 TTS
  • 스피커 출력

모든 것이 스트리밍됩니다 - TTS 가 시작하기 전에 LLM 응답을 기다리지 않습니다. 이것이 실제 대화처럼 느껴지는 부분입니다.

장:

  1. 소개
  2. 오디오 I/O
  3. 음성 인식 (STT)
  4. 텍스트 음성 변환 (TTS)
  5. 전체 음성 루프
  6. 실시간 시스템
  7. 도구
  8. 성격
  9. 프로젝트

각 장은 실행 가능한 스크립트 + 짧은 CODE.md 가이드라인입니다. 또한 작은 공유 라이브러리가 있어 실제 시스템이 아닌 단순한 개별 호출로만 구성된 것이 아니라 어떻게 구성되는지 확인할 수 있습니다.

완전히 로컬인 것이 중요한 이유: 지연 시간을 실제로 볼 수 있습니다. 워밍업, 첫 오디오 시간, 스트리밍 청크 크기 - 이는 자신의 머신에서 실행할 때 추상화가 아닙니다.

배포 장을 계획하고 있으며 modal.com 를 사용하려는 것으로 생각됩니다. 기원과 제안은 환영합니다.

저장소: https://github.com/pguso/voice-agents-from-scratch

원래는 Node.js 를 사용하여 이 저장소를 게시하고 싶었지만, Node.js 의 생태계는 아직 준비되지 않았습니다. Kokoro-JS npm 패키지는 매우 좋지만, Whisper 지원 또는 일반적인 오디오 처리에 대해서는 좋은 옵션이 없습니다.

아키텍처나 마주친 트레이드 오프에 대한 질문에 답변할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0