Kokoro 82M, Qwen 및 llama.cpp 를 활용한 완전 로컬 PDF-오디오북 워크플로우 구축

안녕하세요 모두,

기술 서적을 소리 내어 읽어주며 읽는 중 텍스트를 강조하는 '로컬 우선 (local-first)' 데스크톱 PDF 리더를 개발하고 있습니다.

원래의 동기는 매우 실용적이었습니다. 저는 많은 프로그래밍 및 기술 서적을 읽지만, 많은 출판사는 오디오 버전을 제공하지 않거나 AI 생성 오디오에 대해 추가 비용을 청구합니다. 따라서 완전히 로컬 환경으로 얼마나 멀리까지 갈 수 있는지 확인하고 싶었습니다.

이 앱은 Tauri 2.0 으로 구축되어 저의 Mac 에서 로컬로 실행됩니다. 텍스트 음성 변환 (TTS) 에는 Kokoro 82M 을 사용하고 있습니다. M1 Mac 에서 작업 시 초기 가동 준비를 위해 짧은 대기 시간이 필요하지만, 이후 생성 속도는 일반적인 청취에 충분합니다. 오디오가 재생되는 동안 현재 문장/텍스트 섹션이 리더에서 강조되므로, 단순히 분리된 오디오 파일을 듣는 것보다 함께 읽는 듯한 느낌을 줍니다.

현재 파이프라인은 대략 다음과 같습니다:

데스크톱 앱에서 PDF 로드 및 렌더링
현재 섹션의 가독성 있는 텍스트 추출
TTS 에 적합한 텍스트로 분할
Kokoro 82M 으로 로컬에서 음성 생성
오디오 재생 중 해당 소스 텍스트 강조

고려하고 있는 두 가지 내보내기 모드는 다음과 같습니다:

직관적인 오디오북 모드: PDF 를 llama.cpp 와 Qwen 3.5 0.8B 또는 2B 모델을 사용하여 최적화된 오디오 파일 세트로 변환하는 모드
팟캐스트 스타일 모드: 자료가 더 대화체 형식으로 변환되는 모드

지금까지 가장 흥미로운 기술적 문제는 다음과 같습니다:

생성된 음성이 원래 PDF 텍스트와 정렬되도록 유지하는 것
기술 서적의 코드 스니펫 및 표 처리
앱이 여전히 인터랙티브하게 느껴지도록 첫 번째 생성 속도를 충분히 빠르게 만드는 것

초기 15 개의 문장을 읽어낸 후 다음 15 개를 처리하여 읽기를 원활하게 이어가거나, 전처리 방식을 완전히 다르게 접근해야 할 수도 있습니다.

현재 프로젝트는 이 지점에 있습니다. 저는 여전히 자신의 독서 워크플로우를 위해 주로 구축하고 있지만, 결과가 충분히 유용해지고 코드베이스가 너무 부끄럽지 않다면 나중에 오픈 소스로 공개할 수도 있습니다.

Insights

Kokoro 82M, Qwen 및 llama.cpp 를 활용한 완전 로컬 PDF-오디오북 워크플로우 구축

요약

핵심 포인트

댓글

스웨덴 연구 결과: 남성은 외부 채용 제안을 연봉 협상에 활용하지만 여성은 그렇지 않음

Grok 4.5 출시: '최강'을 쫓기보다 가장 비용 효율적인 '프론티어'에 집중

Taiwan Semi가 웨이퍼 제조 가격을 인상합니다. 이것이 TSM 주식에 좋은 소식인 이유

Grok 4.5 출시: 최강이 아닌, 가장 가성비 좋은 프론티어(Frontier)

스웨덴 연구 결과: 남성은 외부 채용 제안을 연봉 협상에 활용하지만 여성은 그렇지 않음

Grok 4.5 출시: '최강'을 쫓기보다 가장 비용 효율적인 '프론티어'에 집중

Taiwan Semi가 웨이퍼 제조 가격을 인상합니다. 이것이 TSM 주식에 좋은 소식인 이유

Grok 4.5 출시: 최강이 아닌, 가장 가성비 좋은 프론티어(Frontier)