본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 03. 08:44

Kokoro 82M, Qwen 및 llama.cpp 를 활용한 완전 로컬 PDF-오디오북 워크플로우 구축

요약

이 기술 기사는 로컬 환경에서 작동하는 PDF 오디오북 리더 애플리케이션 개발 과정을 설명합니다. 사용자가 기술 서적을 들으면서 동시에 텍스트를 강조하여 읽는 듯한 경험을 제공하며, Tauri 2.0과 Kokoro 82M TTS 모델을 활용해 Mac 등 로컬 기기에서 구동됩니다. 핵심 파이프라인은 PDF 로드 및 렌더링 → 텍스트 추출 → 분할 → Kokoro 82M으로 음성 생성 → 오디오 재생 중 원본 텍스트 강조입니다. 또한, Qwen과 llama.cpp를 활용하여 최적화된 오디오북 또는 팟캐스트 스타일로 변환하는 기능도 고려하고 있습니다.

핵심 포인트

  • 완전히 로컬 환경에서 작동하는 PDF-오디오북 워크플로우 구축 (local-first)
  • Tauri 2.0을 사용하여 데스크톱 애플리케이션 개발 및 Mac 환경에 최적화
  • Kokoro 82M TTS 모델을 활용하여 음성 생성 및 실시간 오디오/텍스트 동기화 구현
  • Qwen과 llama.cpp를 이용해 PDF 내용을 구조화된 오디오북 또는 대화체(팟캐스트) 형식으로 변환하는 기능 고려
  • 기술적 과제로는 오디오와 원본 텍스트의 정렬 유지, 코드 스니펫/표 처리, 초기 로딩 속도 개선 등이 있음

안녕하세요 모두,

기술 서적을 소리 내어 읽어주며 읽는 중 텍스트를 강조하는 '로컬 우선 (local-first)' 데스크톱 PDF 리더를 개발하고 있습니다.

원래의 동기는 매우 실용적이었습니다. 저는 많은 프로그래밍 및 기술 서적을 읽지만, 많은 출판사는 오디오 버전을 제공하지 않거나 AI 생성 오디오에 대해 추가 비용을 청구합니다. 따라서 완전히 로컬 환경으로 얼마나 멀리까지 갈 수 있는지 확인하고 싶었습니다.

이 앱은 Tauri 2.0 으로 구축되어 저의 Mac 에서 로컬로 실행됩니다. 텍스트 음성 변환 (TTS) 에는 Kokoro 82M 을 사용하고 있습니다. M1 Mac 에서 작업 시 초기 가동 준비를 위해 짧은 대기 시간이 필요하지만, 이후 생성 속도는 일반적인 청취에 충분합니다. 오디오가 재생되는 동안 현재 문장/텍스트 섹션이 리더에서 강조되므로, 단순히 분리된 오디오 파일을 듣는 것보다 함께 읽는 듯한 느낌을 줍니다.

현재 파이프라인은 대략 다음과 같습니다:

  1. 데스크톱 앱에서 PDF 로드 및 렌더링
  2. 현재 섹션의 가독성 있는 텍스트 추출
  3. TTS 에 적합한 텍스트로 분할
  4. Kokoro 82M 으로 로컬에서 음성 생성
  5. 오디오 재생 중 해당 소스 텍스트 강조

고려하고 있는 두 가지 내보내기 모드는 다음과 같습니다:

  • 직관적인 오디오북 모드: PDF 를 llama.cpp 와 Qwen 3.5 0.8B 또는 2B 모델을 사용하여 최적화된 오디오 파일 세트로 변환하는 모드
  • 팟캐스트 스타일 모드: 자료가 더 대화체 형식으로 변환되는 모드

지금까지 가장 흥미로운 기술적 문제는 다음과 같습니다:

  • 생성된 음성이 원래 PDF 텍스트와 정렬되도록 유지하는 것
  • 기술 서적의 코드 스니펫 및 표 처리
  • 앱이 여전히 인터랙티브하게 느껴지도록 첫 번째 생성 속도를 충분히 빠르게 만드는 것

초기 15 개의 문장을 읽어낸 후 다음 15 개를 처리하여 읽기를 원활하게 이어가거나, 전처리 방식을 완전히 다르게 접근해야 할 수도 있습니다.

현재 프로젝트는 이 지점에 있습니다. 저는 여전히 자신의 독서 워크플로우를 위해 주로 구축하고 있지만, 결과가 충분히 유용해지고 코드베이스가 너무 부끄럽지 않다면 나중에 오픈 소스로 공개할 수도 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0