Murf는 오디오 초 단위로, ElevenLabs는 글자 수 단위로 과금합니다. 어느 쪽이 유리한지 산술적으로 계산해 보았습니다.

저는 사이드 프로젝트를 위해 많은 양의 합성 음성 (Synthetic speech)을 생성하며, Murf와 ElevenLabs라는 두 가지 텍text-to-speech (TTS) 구독 서비스를 유지하고 있습니다. 오랫동안 저는 "어느 것이 더 저렴한가"를 단순히 하나의 숫자와 다른 숫자를 비교하는 고정된 사실로 취급해 왔습니다. 하지만 그렇지 않습니다. 두 도구는 서로 _다른 단위_로 측정하며, 이를 인지하는 순간 더 저렴한 도구는 가격 페이지의 속성이 아니라 여러분의 스크립트(Script)의 속성이 됩니다.

한 문장으로 요약하자면 다음과 같습니다: Murf는 오디오의 재생 시간(Duration)에 따라 비용을 청구하고, ElevenLabs는 텍스트의 글자 수(Characters)에 따라 비용을 청구합니다. 한쪽에서는 일시 정지(Pause)가 비용을 발생시키지만, 다른 한쪽에서는 비용이 들지 않습니다. 저는 그 경계선이 정확히 어디인지 찾아내기 위해 모델링을 해보았고, 그 결과가 놀라워 이렇게 글로 남기게 되었습니다.

두 가지 측정 방식

Murf는 "음성 생성 시간 (Voice generation time)"을 측정합니다. 매월 정해진 오디오 시간 (Audio hours) 예산(29달러 Creator 플랜의 경우 2시간)을 받게 되며, 생성된 음성에 무엇이 담겨 있든 상관없이 생성된 음성의 매 초마다 예산이 차감됩니다.
ElevenLabs는 _크레딧 (Credits)_을 측정합니다. 표준 다국어 모델 (Standard multilingual model) 기준으로 1 크레딧은 입력 텍스트의 1 글자(Character)와 같습니다 (22달러 Creator 플랜의 경우 월 121,000 크레딧).
침묵, 일시 정지, 느린 전달 속도는 추가 비용이 들지 않습니다. 그것들은 글자가 아니기 때문입니다.

따라서 논리적으로 추론하기 위한 자연스러운 단위는 오디오 초당 글자 수 (Characters per second of audio), 즉 텍스트를 시간에 얼마나 밀도 있게 채워 넣느냐입니다. 이를 cps라고 부르겠습니다. 빠른 광고 읽기는 매 초마다 많은 글자를 밀어 넣고, 여유 공간이 있는 속도 조절형 이러닝 (e-learning) 모듈은 많은 초에 걸쳐 적은 글자를 분산시킵니다. 같은 단어라도 전달 방식에 따라 cps는 달라집니다.

두 측정 방식을 공통된 기준으로 정규화하면 비대칭성이 드러납니다:

@dataclass(frozen=True)
class DurationPlan:        # Murf — 오디오 초 단위 과금
    name: str
...

두 개의 dollars_per_audio_hour 메서드를 살펴보십시오. Murf의 방식은 cps를 무시합니다. 오디오 시간당 고정 요율입니다. ElevenLabs의 방식은 cps에 따라 **선형적 (Linear)**으로 변합니다. 하나는 수평선이고, 다른 하나는 원점을 지나는 광선입니다. 두 선은 정확히 한 번 교차하며, 그 교차점이 이 이야기의 핵심입니다.

단가 (정규화된 미터):
ElevenLabs : 1,000자당 $0.182
Murf : 오디오 시간당 $14.50 (월간), 오디오 시간당 $9.50 (연간)

손익분기점은 발화 밀도(speaking density)입니다

Murf의 고정 시간당 비용($/hour)을 ElevenLabs의 cps 기반 시간당 비용($/hour)과 동일하게 설정하고 cps에 대해 방정식을 풉니다:

def breakeven_cps(dplan, cplan):
    flat_per_hour = dplan.dollars_per_audio_hour(0)        # 밀도와 무관함
    return flat_per_hour / (cplan.dollars_per_char() * 3600)

손익분기 발화 밀도 (초당 글자 수, characters per second of audio):
  vs Murf Creator (monthly)  :  22.2 cps
  vs Murf Creator (annual)   :  14.5 cps
...

이제 수치에 의미가 생겼습니다. 손익분기 밀도보다 낮으면 ElevenLabs가 유리하고, 그보다 높으면 Murf가 유리합니다. 그렇다면 실제 음성의 밀도는 어느 정도일까요? 자연스러운 영어 내레이션은 약 13~~16 cps로 진행됩니다. 빠르고 밀도 높은 낭독은 18~~20 cps에 육박하며, 의도적인 휴지가 포함된 완급 조절이 있는 낭독은 10~12 cps로 떨어집니다. (제 말을 무조건 믿으실 필요는 없습니다. cps는 단순히 글자 수 / 오디오 초(audio_seconds)이므로, 이미 제작한 어떤 클립에서도 직접 측정할 수 있습니다.)

이 수치를 두 가지 손익분기점과 비교해 보겠습니다:

Murf 월간 요금제는 22.2 cps에서 손익분기점을 형성합니다 — 이는 사실상 모든 실제 음성보다 높습니다. 월간 결제 시에는 실제로 내레이션하는 거의 모든 경우에 ElevenLabs가 더 저렴합니다.
Murf 연간 요금제는 14.5 cps에서 손익분기점을 형성합니다 — 이는 실제 범위의 딱 중간에 위치합니다. 이제는 전달 방식(delivery)에 따라 결과가 달라지는 진정한 의미의 '동전 던지기(coin-flip)' 상황이 됩니다.

현실적인 콘텐츠 범위를 훑어보면 더욱 구체화됩니다 (cps는 사용자가 자신의 오디오에서 측정할 수 있는 입력값이므로, 하나의 정답이 있는 것처럼 가정하기보다 범위를 훑어보겠습니다):

콘텐츠 유형                       cps  EL $/hr  Murf mo  Murf yr  cheapest
---------------------------------------------------------------------------
느리고 휴지가 있는 e-러닝            9.5     6.22    14.50     9.50  ElevenLabs
...

(한 가지 솔직한 주의 사항: Murf의 시간당 $9.50/$14.50 정액제는 사용자가 실제로 2시간의 예산을 모두 ‘사용’한다는 것을 전제로 합니다. 이 시간은 이월되지 않으므로, 만약 생성량이 그보다 적다면 실제 시간당 비용은 표에 나온 것보다 높아지며, 결코 낮아지지는 않습니다. ElevenLabs의 미사용 크레딧 또한 만료되지만, 글자당 가격은 10자를 쓰든 10,000자를 쓰든 글자당 가격 그대로 유지됩니다.)

휴지(Pauses)가 핵심입니다

여기 제가 웃음을 터뜨린 부분이 있습니다. e-러닝 팀을 대상으로 한 Murf의 셀링 포인트는 ‘전달 제어(delivery controls)’ 기능에 크게 의존합니다. 즉, 정확한 휴지(pause)를 삽입하고, 속도를 늦추며, 문장이 호흡할 수 있게 만드는 것입니다. 이는 훌륭한 교수 설계(instructional design)입니다. 하지만 휴지는 **무료 글자 수이면서 유료 초(seconds)**입니다. 이는 그러한 정교한 작업이 추가될 때마다 사용자를 cps(초당 글자 수) 축의 아래쪽으로, 즉 Murf가 더 비싼 측정 방식을 갖게 되는 영역으로 끌어내린다는 것을 의미합니다.

15 cps로 1분 분량의 내레이션을 생성한다고 가정하고, 교육용으로 일반적인 수준인 5초마다 약 1초의 간격을 두어 12초의 의도적인 휴지를 추가해 보겠습니다:

60초, 900자 내레이션에서 12초의 의도적인 휴지 추가 시 비용:
  전: 60초 오디오, 900자 -> 15.0 cps
  후: 72초 오디오, 900자 -> 12.5 cps
...```

스크립트는 변하지 않았습니다. 동일한 900자입니다. 하지만 페이싱(pacing, 속도 조절)이 변했고, 시간 단위로 측정하는 방식에서는 페이싱이 곧 청구 금액이 됩니다. Murf를 페이싱이 중요한 교육용 콘텐츠에 적합하게 만드는 바로 그 기능이, 역설적으로 페이싱이 중요한 콘텐츠에 있어 Murf의 측정 방식을 부적절하게 만드는 기능이 됩니다. 이것은 음성 품질에 대한 비판이 아니라, 초 단위 과금 방식의 특성입니다.

이것이 바로 Murf에 대한 직접적인 비교 결과가 단순히 "더 저렴하다/비싸다"가 아니라 전달 방식에 따라 크게 달라지는 이유이며, 측정 방식은 그 이유의 절반일 뿐이라는 점입니다. 나머지 절반은 음성을 둘러싼 스튜디오(타임라인, 음악 라이브러리, 프로젝트 시스템)가 시간당 계산법과 상관없이 구독 가치를 제공하느냐 하는 것입니다. 저는 [Murf AI 전체 실습 리뷰](https://aialleyway.com/murf-ai-review/)를 통해 이 모든 과정을 느린 호흡으로 살펴보았으며, 요약하자면 Murf는 글자당 가격이 아니라 ‘스튜디오’를 판매한다는 것입니다. 이는 여기서 계산한 산술적 결과와 정확히 일치합니다.

## 측정 기반 도구들을 비교하는 모든 이를 위한 시사점

- **가격 이전에 단위를 확인하세요.** 서로 다른 단위(초 vs 글자 수, 요청 수 vs 토큰, 행 수 vs 기가바이트)로 가격을 제시하는 두 도구는 헤드라인에 적힌 숫자만으로는 비교할 수 없습니다. 먼저 공통된 기준으로 정규화(Normalize)하세요. 그러면 더 저렴한 쪽이 뒤바뀌는 경우가 많습니다.
- **고정 요금제(Flat meter)와 사용량 기반 요금제(Usage meter)는 정확히 한 번 교차합니다.** 그 교차점을 찾아낸다면,

Murf는 오디오 초 단위로, ElevenLabs는 글자 수 단위로 과금합니다. 어느 쪽이 유리한지 산술적으로 계산해 보았습니다.

요약

핵심 포인트

두 가지 측정 방식

손익분기점은 발화 밀도(speaking density)입니다

휴지(Pauses)가 핵심입니다

댓글