긴 형식의 텍스트를 위한 샘플 우선 TTS 파이프라인 설계하기

짧은 문장을 오디오로 변환하는 것은 쉽습니다.

텍스트를 TTS (Text-to-Speech) 서비스로 보내고, 목소리를 선택하면 오디오 파일을 받게 됩니다.

하지만 긴 형식 (Long-form)의 텍스트는 다른 문제입니다.

입력값이 기사, 원고의 한 장, 긴 튜토리얼, 학습 자료 또는 전자책(ebook) 섹션이 되면, 시스템은 더 이상 단순히 "텍스트 입력, 오디오 출력"만 수행하는 것이 아닙니다. 구조, 속도 조절 (pacing), 포맷팅 노이즈, 대화의 흐름, 그리고 사용자의 기대치를 처리해야 합니다.

저는 긴 텍스트를 위한 오디오북 스타일의 생성 작업을 실험하면서 이 문제에 부딪혔습니다.

처음에는 워크플로우를 일반적인 TTS 호출처럼 다루었습니다:

텍스트 입력.
목소리 선택.
오디오 생성.
파일 반환.

짧은 샘플에는 작동했지만, 내용이 길어지자 빠르게 무너졌습니다.

어떤 단락들은 화면상으로는 괜찮아 보였지만, 소리 내어 읽을 때는 너무 무겁게 느껴졌습니다. 섹션 제목은 다음 문장과 너무 붙어서 읽혔습니다. 대화의 흐름을 따라가기가 더 어려워졌습니다. 웹 페이지나 문서에서 복사한 텍스트에는 때때로 숨겨진 포맷팅 문제가 포함되어 있었습니다. 어떤 경우에는 음성 모델이 진짜 문제가 아니었습니다. 입력 텍스트 자체가 오디오로 변환될 준비가 되어 있지 않았던 것입니다.

그것이 제가 긴 형식의 TTS를 단일 생성 단계가 아닌 파이프라인 (pipeline)으로 생각하기 시작한 이유입니다.

제가 발견한 가장 유용한 패턴은 샘플 우선 (sample-first) 워크플로우입니다.

전체 오디오를 즉시 생성하는 대신, 시스템은 사용자가 텍스트를 정리하고, 오디오 친화적인 블록으로 분할하며, 짧은 미리보기를 생성하고, 결과를 검토한 다음, 샘플이 적절할 경우에만 계속 진행할 수 있도록 도와야 합니다.

이 글에서는 제품 및 엔지니어링 관점에서 해당 워크플로우를 분석합니다.

왜 긴 형식의 텍스트가 단순한 TTS 워크플로우를 망가뜨리는가

대부분의 TTS 예제는 짧은 입력을 중심으로 구축되어 있습니다.

한 문장.
한 단락.
짧은 보이스오버 (voiceover) 스크립트.
알림 메시지.
제품 데모 대사.

이러한 경우에는 단순한 흐름으로 충분합니다:

API로 텍스트 전송.
오디오 대기.
파일 반환.

긴 형식의 콘텐츠는 더 많은 실패 지점을 가지고 있습니다.

입력값에는 긴 단락, 반복되는 헤더 (headings), 페이지 번호, 각주 (footnotes), 끊긴 줄 바꿈 (broken line breaks), 복사된 내비게이션 텍스트, 조밀한 설명, 대화, 장면 전환 또는 특이한 용어들이 포함될 수 있습니다.

인간 독자는 시각적으로 이러한 요소들의 상당수를 무시할 수 있습니다.

하지만 TTS 시스템은 대개 그럴 수 없습니다.

텍스트 중간에 페이지 번호가 있으면 그것이 소리 내어 읽힐 수 있습니다. 몇 단락마다 반복되는 헤더가 나타나면 그것이 내레이션의 일부가 될 수 있습니다. 대화가 명확하게 구분되지 않으면 오디오가 혼란스러워질 수 있습니다. 단락이 너무 조밀하면 청취자가 의미를 놓칠 수 있습니다.

이것이 바로 긴 형식의 TTS를 하나의 커다란 API 요청으로 처리해서는 안 되는 이유입니다.

더 나은 사고 모델 (mental model)은 다음과 같습니다:

입력값 정제 (Clean the input).
입력값 구조화 (Structure the input).
출력값 미리보기 (Preview the output).
샘플 검토 (Review the sample).
그 다음 더 많은 오디오 생성 (Then generate more audio).

1단계: 입력 텍스트 정제 (Clean the Input Text)

긴 형식의 TTS 파이프라인에서 첫 번째 단계는 목소리 선택 (voice selection)이 되어서는 안 됩니다.

그것은 텍스트 정제 (text cleanup)여야 합니다.

사용자가 PDF, 기사, 이북 (ebook), 내보낸 문서 또는 웹 페이지에서 콘텐츠를 복사하여 붙여넣을 경우, 텍스트에는 소리 내어 읽어서는 안 되는 요소들이 포함되는 경우가 많습니다.

일반적인 예시는 다음과 같습니다:

페이지 번호
반복되는 헤더 (headers)
푸터 (footer) 텍스트
각주 (footnotes)
내비게이션 레이블 (navigation labels)
버튼 텍스트
목차 파편 (table of contents fragments)
인용 노이즈 (citation noise)
끊긴 줄 바꿈 (broken line breaks)
추가 공백
중복된 제목
관련 기사 섹션

이러한 문제들은 시각적으로 읽을 때는 놓치기 쉽지만, 콘텐츠가 오디오로 변환되면 명확하게 드러납니다.

예를 들어, 단락 중간에 읽히는 페이지 번호는 청취 경험을 해칩니다. 반복되는 헤더는 오디오를 끊기게 만듭니다. 복사된 웹 메뉴는 생성된 오디오를 사용 불가능하게 느껴지게 할 수 있습니다.

MVP (Minimum Viable Product) 단계에서는 정제를 수동으로 할 수 있습니다. 제품에서 텍스트 영역을 제공하고 사용자가 생성 전에 편집할 수 있도록 허용하는 방식입니다.

더 발전된 제품의 경우, 정제는 파이프라인의 일부가 될 수 있습니다. 시스템이 반복되는 헤더를 감지하고, 일반적인 웹 아티팩트 (artifacts)를 제거하며, 줄 바꿈을 정규화하고, 텍스트가 노이즈가 많아 보일 때 사용자에게 경고를 보낼 수 있습니다.

중요한 점은 타이밍입니다.

정리(Cleanup) 작업은 오디오 생성 전에 이루어져야 합니다.

일단 오디오가 생성되고 나면, 모든 텍스트 문제는 수정하는 데 더 많은 비용이 발생합니다.

Step 2: 텍스트를 오디오 친화적인 블록으로 분할하기

정리 작업 이후의 다음 문제는 구조입니다.

읽기 위해 작성된 문단이 항상 듣기에 적합한 문단인 것은 아닙니다.

사람들이 화면에서 텍스트를 읽을 때는 멈추거나, 다시 훑어보거나, 다시 읽거나, 레이아웃을 가이드로 사용할 수 있습니다. 오디오는 동일한 시각적 구조를 제공하지 않습니다. 청자는 속도(pacing), 일시 정지(pauses), 전환(transitions), 그리고 명확성(clarity)에 의존합니다.

즉, 긴 텍스트는 오디오 친화적인 블록으로 분할되어야 합니다.

하나의 블록은 보통 하나의 청취 단위(listening unit)를 나타내야 합니다.

비소설(nonfiction)의 경우, 다음과 같을 수 있습니다:

하나의 아이디어
하나의 예시
하나의 설명
하나의 전환
하나의 결론

소설이나 서사적(narrative) 콘텐츠의 경우, 다음과 같을 수 있습니다:

하나의 장면 비트(scene beat)
하나의 동작
하나의 대화 교환
하나의 감정적 변화
하나의 관점 전환

목표는 모든 문장을 각각의 줄로 분할하는 것이 아닙니다. 그렇게 하면 오디오가 뚝뚝 끊기는 느낌(choppy)을 줄 수 있습니다.

목표는 거대하고 밀집된 블록을 TTS 시스템에 보내는 것을 방지하는 것입니다.

블록 기반 생성은 엔지니어링 관점에서도 도움이 됩니다.

시스템이 블록 단위로 오디오를 생성하면, 실패한 섹션을 재시도하거나, 출력을 캐싱(cache)하거나, 하나의 문단만 다시 생성하거나, 오디오 세그먼트(segments)를 서로 이어 붙이거나, 텍스트의 어느 부분이 어떤 오디오 섹션을 생성했는지 사용자에게 보여주기가 더 쉬워집니다.

이는 또한 더 나은 검토(review) 경험을 만들어냅니다.

사용자에게 하나의 커다란 오디오 파일만 제공하고 수동으로 문제를 찾도록 요청하는 대신, 제품에서 텍스트 블록과 그에 상응하는 오디오 샘플을 보여줄 수 있습니다.

Step 3: 먼저 미리보기(Preview) 생성하기

이것이 핵심 단계입니다.

처음부터 전체 오디오를 생성하지 마세요.

짧은 미리보기를 생성하세요.

미리보기는 텍스트만으로는 판단할 수 없는 질문들에 답하는 데 도움을 줍니다:

목소리가 소재와 어울리는가?
속도(Pacing)가 편안한가?
문단이 너무 빽빽하지 않은가?
대화가 충분히 명확한가?
제목(Heading)이 자연스럽게 분리되는가?
발음 문제가 있는가?
내용이 소리 내어 들었을 때 효과적인가?
누군가 계속해서 듣게 될 것인가?

이 지점에서 샘플 우선(sample-first) 워크플로우가 유용해집니다.

미리보기 단계를 위해, 저는 전체 길이의 결과물을 생각하기 전에 온라인 오디오북 생성기 (online audiobook generator)를 사용하여 정제된 입력을 테스트했습니다.

이 단계의 가치는 단순히 오디오를 생성하는 데 있지 않습니다. 그 가치는 검증(Validation)에 있습니다.

짧은 샘플은 소스 텍스트가 더 긴 생성 프로세스를 진행할 준비가 되었는지 여부를 드러낼 수 있습니다. 또한 더 빠른 사용자 피드백 루프(Feedback loop)를 생성할 수 있습니다.

제품 관점에서 이는 매우 중요합니다.

사용자가 아무것도 듣기 전에 긴 오디오 파일이 완성될 때까지 기다려야 한다면, 경험은 느리고 위험하게 느껴집니다. 만약 사용자가 짧은 미리보기를 빠르게 들을 수 있다면, 텍스트를 수정할지, 목소리를 바꿀지, 아니면 계속 진행할지를 즉시 결정할 수 있습니다.

이는 낭비되는 생성 시간을 줄이고, 최종 결과물이 실제로 사용 가능할 확률을 높여줍니다.

4단계: 청취자처럼 미리보기 검토하기

미리보기를 생성한 후, 사용자는 단 하나의 질문만을 던져서는 안 됩니다:

“목소리가 사실적인가?”

그 질문은 너무 좁습니다.

목소리가 사실적으로 들리더라도 여전히 나쁜 청취 경험을 만들어낼 수 있습니다.

긴 형식(Long-form)의 오디오를 위해서는 검토 체크리스트가 더 넓어야 합니다:

청취자가 텍스트를 보지 않고도 의미를 따라갈 수 있는가?

속도(Pacing)가 자연스럽게 느껴지는가?

일시 정지(Pause)가 적절한 위치에 배치되었는가?

구조가 귀로 들었을 때 말이 되는가?

대화가 명확하게 들리는가?

제목과 전환(Transition)이 분리된 느낌을 주는가?

발음 문제가 있는가?

오디오에 포맷팅 노이즈(Formatting noise)가 있는가?

누군가 몇 분 동안 더 계속해서 들을 것인가?

만약 대답이 '아니오'라면, 다음 단계는 목소리를 바꾸는 것이 아니라 입력값 수정(Input correction)이어야 하는 경우가 많습니다.

이것이 테스트를 통해 얻은 가장 큰 교훈 중 하나였습니다.

AI 내레이션이 좋지 않게 들릴 때, 항상 음성 모델(voice model)이 문제인 것은 아닙니다. 때로는 텍스트가 단순히 듣기에 적합하게 준비되지 않았을 수도 있습니다.

좋은 제품이라면 사용자가 그 점을 이해할 수 있도록 도와야 합니다.

사용자에게 다양한 목소리로 끊임없이 재생성(regenerate)하도록 권장하는 대신, 인터페이스는 사용자가 원본 텍스트를 개선할 수 있도록 도와야 합니다.

5단계: 출력을 확장하기 전에 입력을 수정하기

미리보기(preview) 검토가 완료되면, 제품은 사용자가 문제를 조기에 수정하도록 유도해야 합니다.

여기에는 다음과 같은 사항이 포함될 수 있습니다:

더 많은 서식 노이즈(formatting noise) 제거
긴 단락 나누기
더 명확한 섹션 구분 추가
대화 간격 조정
밀집된 문장 하나를 다시 쓰기
발음 확인
더 어려운 샘플 구간 선택
다른 페이싱(pacing) 설정 시도

이 단계는 규모가 커질수록 실수의 비용이 더 커지기 때문에 중요합니다.

짧은 샘플에서 특이한 이름 하나가 잘못 발음된다면 조기에 수정할 수 있습니다. 하지만 사용자가 오디오북 전체를 먼저 생성해 버린다면, 동일한 문제가 수십 번 나타날 수 있습니다.

1분 분량의 미리보기에서 단락 구조가 너무 밀집되어 있다고 느껴진다면, 사용자는 전체 챕터를 생성하기 전에 텍스트를 수정할 수 있습니다. 만약 미리보기를 건너뛰고 모든 것을 생성한다면, 전체 결과물을 다시 작업해야 할 수도 있습니다.

샘플 우선(sample-first) 워크플로우는 실수의 비용을 줄여줍니다.

그것이 주요 장점입니다.

이는 긴 형식의 생성(long-form generation)을 더 안전하게 만듭니다.

프로덕션 버전이 포함할 수 있는 기능들

프로덕션 준비가 된(production-ready) 긴 형식의 TTS 시스템은 단순한 미리보기 버튼 그 이상을 수행할 수 있습니다.

제가 고려할 만한 몇 가지 기능은 다음과 같습니다.

자동 텍스트 정리 (Automatic Text Cleanup)

시스템은 일반적인 서식 문제를 감지하고 생성 전에 정리를 제안할 수 있습니다.

예시:

반복되는 헤더(headers)
페이지 번호
깨진 줄 바꿈
목차 파편
웹 네비게이션 텍스트
빈 줄
중복된 제목

이는 기술적이지 않은 사용자들에게 워크플로우를 더 쉽게 만들어 줄 것입니다.

블록 단위 생성 (Block-Level Generation)

하나의 거대한 오디오 파일을 생성하는 대신, 시스템은 텍스트를 블록으로 나누고 각 블록을 별도로 생성할 수 있습니다.

이를 통해 다음과 같은 작업이 더 쉬워집니다:

실패한 블록 재시도 (Retry failed blocks)
특정 섹션만 재생성 (Regenerate only one section)
원문 텍스트와 오디오 대조 검토 (Review audio against source text)
완료된 섹션 캐싱 (Cache completed sections)
나중에 최종 오디오 병합 (Stitch final audio later)

블록 단위 생성 (Block-level generation)은 사용자에게 더 많은 제어권을 제공합니다.

미리보기 대기열 (Preview Queue)

긴 텍스트의 경우, 미리보기를 가벼운 대기열 (Queue)을 통해 처리할 수 있습니다.

사용자가 샘플 섹션을 제출하면 시스템이 비동기적 (Asynchronously)으로 오디오를 생성하고, 미리보기가 준비되면 인터페이스가 업데이트됩니다.

이는 백엔드에서 더 느리거나 고품질의 TTS 모델을 사용하는 경우 특히 유용합니다.

발음 노트 (Pronunciation Notes)

긴 형식의 콘텐츠에는 이름, 기술 용어, 가상의 장소 또는 브랜드명이 포함되는 경우가 많습니다.

유용한 시스템이라면 생성 전에 사용자가 발음 노트 (Pronunciation notes)를 추가할 수 있도록 허용할 수 있습니다.

이는 오디오북, 교육용 콘텐츠, 판타지 소설, 기술 튜토리얼 및 특정 도메인 전문 자료에서 특히 중요할 것입니다.

검토 인터페이스 (Review Interface)

단순히 오디오 파일만 반환하는 대신, 제품에서 검토 패널 (Review panel)을 제공할 수 있습니다.

예를 들어:

텍스트 블록 (Text block)
생성된 오디오 (Generated audio)
재생 컨트롤 (Playback controls)
노트 (Notes)
재생성 버튼 (Regenerate button)
음성 설정 (Voice settings)
상태 표시기 (Status indicator)

이를 통해 오디오 생성은 블랙박스 형태의 변환이 아닌 편집 워크플로 (Editing workflow)로 전환됩니다.

오디오 병합 (Audio Stitching)

시스템이 블록 단위의 오디오를 생성한다면, 블록들을 깔끔하게 하나로 묶을 수 있는 방법도 필요합니다.

최종 출력물은 일관된 볼륨, 속도 (Pacing), 무음 간격 (Silence gaps) 및 챕터 전환을 유지해야 합니다.

이 지점이 긴 형식의 오디오 제작이 단순한 TTS보다 더 복잡해지는 단계입니다.

이것이 사용자 경험(UX)에 중요한 이유

샘플 우선 (Sample-first) 워크플로는 단순한 기술적 개선이 아닙니다.

이는 제품 경험을 향상시킵니다.

사용자는 전체 출력을 기다리기 전에 짧은 샘플을 들을 수 있으므로 더 빠르게 가치를 얻습니다.

사용자는 더 많은 시간을 투입하기 전에 결과를 테스트할 수 있으므로 더 안전하다고 느낍니다.

사용자는 텍스트 준비가 중요하다는 것을 알게 됨으로써 프로세스를 더 잘 이해하게 됩니다.

사용자가 즉시 거부할 수 있는 긴 오디오 파일을 생성하는 것을 방지함으로써 제품의 비용을 제어할 수 있습니다.

생성이 더 작은 단위로 이루어질 수 있기 때문에 백엔드(Backend) 관리가 더 쉬워집니다.

다시 말해, 샘플 우선(sample-first) 방식은 사용자와 시스템 모두에게 더 좋습니다.

마치며

제가 배운 가장 큰 교훈은 긴 형식의 텍스트-음성 변환(text-to-audio)을 단 한 번의 API 호출로 처리해서는 안 된다는 것입니다.

짧은 텍스트는 그런 방식으로 작동할 수 있습니다.

긴 텍스트는 보통 불가능합니다.

긴 형식의 내레이션(narration)의 경우, 출력물의 품질은 TTS 모델이 실행되기 전부터 결정됩니다.

그것은 입력(input)에서부터 시작됩니다.