본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 08. 23:41

Zero to Autopilot, 파트 4: 비용의 붕괴 — 영상당 $10.50에서 $0.06로

요약

AI 미디어 채널 구축 시리즈의 네 번째 파트로, 영상 제작 비용을 $10.50에서 $0.06로 획기적으로 절감한 사례를 다룹니다. ffmpeg를 활용한 무료 모션 기술과 비용이 발생하는 핵심 요소인 이미지 및 AI 비디오 생성 비용을 분석합니다.

핵심 포인트

  • 영상 제작 비용을 $10.50에서 $0.06로 약 175배 절감
  • ffmpeg를 활용해 정지 영상을 무료로 애니메이션화
  • 비용 관리의 핵심은 이미지 및 AI 비디오 생성 비용 조절
  • AI 비디오 서비스는 출력 초당 비용(duration × rate) 기반으로 과금됨

시리즈: Zero to Autopilot — 스스로 개선되는 AI 미디어 채널 구축하기. 7부작 중 4부. 파트 1 지형(landscape) · 파트 2 파이프라인(pipeline) · 파트 3 무료 모션(free motion). 이제 핵심적인 수치를 공개합니다: 영상 하나당 비용이 어떻게 $10.50에서 6센트로 줄어들었는지에 대해서 말이죠.

데이터 상태 (파트 4): 실시간 실제 데이터. 모든 수치는 추정치가 아니라 매니페스트(manifest)에서 측정된 cost_usd입니다. 코드는 저장소(repo)에서 직접 가져왔습니다.

This Short cost six cents to produce. A Flux Schnell still (~$0.005), free motion, free voice, a sliver of AI sound.

실제 비용이 발생하는 곳

파트 3 이후로 모션(motion)은 무료입니다. ffmpeg를 사용하여 정지 영상을 $0에 애니메이션화합니다. 따라서 영상의 비용은 실제 돈이 들 수 있는 단 두 가지 항목으로 급격히 줄어듭니다:

  1. 이미지 (Images) — 장면당 하나의 정지 영상.
  2. AI 비디오 (AI video) — 특정 장면에 사용하기로 선택한 경우에만 해당.

그 외 모든 것(로컬 LLM을 이용한 스크립트 작성, edge-TTS를 이용한 나레이션, 스티칭(stitching), 믹싱(muxing), 게시)은 이미 $0입니다. 따라서 비용 관리의 핵심은 전적으로 이 두 가지 조절 장치(knobs)에 달려 있습니다. 품질을 떨어뜨리지 않으면서 이 수치들을 낮춰봅시다.

조절 장치 1: 초당 발생하는 비디오 폭탄

파트 1에서 등장했던 악당을 요약하자면 — 호스팅되는 AI 이미지-투-비디오(image-to-video) 서비스는 출력되는 초당 비용을 청구합니다. 클립 하나당 비용은 고정된 금액이 아닙니다. 모델이 허용하는 지속 시간 그리드(duration grid)에 맞춰 계산되는 지속 시간 × 요율(duration × rate)입니다:

# studio/providers/video.py
def estimate_cost(provider: str, model: str, seconds: float) -> float:
    spec = FAL_MODELS.get(model, FAL_MODELS["kling"])
...

Kling의 초당 $0.07 비용을 기준으로, 모든 장면에 AI 비디오를 사용한 150초 분량의 쇼츠(Short)는 약 $10.50가 듭니다. 그것이 저의 첫 번째 영상이었습니다. 해결책은 더 저렴한 모델을 사용하는 것이 아닙니다(물론 초당 $0.04인 ltx가 도움이 되긴 하지만). 해결책은 _AI 비디오를 훨씬 더 선택적으로 사용하는 것_이며, 이에 대해서는 나중에 다루겠습니다. 먼저, 더 저렴한 조절 장치(knob)부터 살펴보겠습니다.

조절 장치 2: 이미지 모델의 적정 규모 설정 (right-size)

저는 모든 이미지를 Nano Banana ($0.039/img) — Google의 Gemini 2.5 Flash Image — 로 기본 설정해 왔습니다. 이 모델은 매우 아름답고, 결정적으로 캐릭터 참조 일관성 (character-reference consistency)을 지원합니다. 이는 제가 제작한 느와르 카프카(Kafka) 시리즈와 같이 실사 느낌(photoreal)이나 반복되는 캐릭터가 등장하는 콘텐츠에 꼭 필요한 기능입니다.

Nano Banana ($0.039): photoreal noir, character-consistent. Worth it when the look demands it.

하지만

등급 (Tier)이미지 (Images)영상 전략 (Video strategy)~비용 / 150초시점
free오프라인 카드 (offline card)켄 번스 (Ken-Burns)$0와이어링 / 초안 (wiring / drafts)
...
--tier 설정이 모든 것을 결정하며, 어떤 --*-provider 플래그라도 단일 선택 사항을 여전히 덮어씁니다. 흥미로운 것은 balanced 설정인데, 이는 auto가 작동하는 방식 때문입니다.

auto: 중요한 곳에 예산을 투입하기

대부분의 장면은 서서히 확대/축소되는 정지 이미지 (drifting still) 상태로도 충분합니다. 하지만 몇몇 장면 — 도입부 (hook), 절정 (climax), 아웃트로 (outro) — 은 실제 AI 모션 (AI motion)을 부여할 가치가 있습니다. 따라서 auto는 아주 작은 탐욕적 배낭 문제 (greedy knapsack) 알고리즘과 같습니다. 장면들을 우선순위에 따라 정렬한 다음, 예산 범위 내에서 가장 우선순위가 높은 장면들에 AI 예산을 할당하고, 나머지는 켄 번스 (Ken-Burns) 효과를 적용합니다.

우선순위는 장면에 명시적으로 설정되거나, **히어로 휴리스틱 (hero heuristic)**에 의해 추론됩니다:

# studio/stages/clips.py
def _effective_priority(scene, index, total):
    if scene.priority:        return float(scene.priority)
...

그 다음, 가장 높은 우선순위부터 탐욕적으로 예산을 채워 나갑니다:

budget = max_cost if max_cost is not None else float("inf")
for i in sorted(range(n), key=lambda i: (_effective_priority(scenes[i], i, n), -i), reverse=True):
    c = video.estimate_cost("fal-i2v", model, scenes[i].duration_s)
...

따라서 --tier balanced --max-cost 1.50은 다음과 같은 의미입니다: "도입부와 몇몇 핵심 비트(key beats)에는 AI 모션을 적용하고, 나머지 모든 곳에는 무료 모션을 적용하되, 절대 $1.50 이상은 쓰지 마라." 이를 통해 시청자가 실제로 인지하는 부분에 AI 영상의 시각적 충격 (perceptual punch)을 주면서도, 전체를 AI로 만들 때보다 훨씬 적은 비용으로 구현할 수 있습니다.

과도한 지출을 거부하는 사전 점검 (pre-flight)

비용은 단 한 번의 API 호출이 발생하기 에 추정됩니다. auto는 예산에 맞춰 조정하지만, 고정된 전략(all/hybrid)은 추정치가 예산을 초과할 경우 청구서로 깜짝 놀라게 하는 대신 실행을 중단 (abort) 합니다:

$ studio estimate lobachevsky --budget 3
  kling   150s → $10.50   ❌ 예산 초과 (over budget)
  ltx     150s → $6.00    ❌ 예산 초과 (over budget)
...

studio run--max-cost 3을 기본값으로 설정하며, 클립(clips) 단계에서 이 비용을 초과하지 않습니다. 제공업체(provider)가 예상치 못한 값을 반환할 경우를 대비해 실행 중인 가드레일(guard)이 추정치를 뒷받침합니다. 파트 2에서 언급한 황금률이 여기서 빛을 발합니다. 모든 제공업체가 자신의 실제(real) 비용을 보고하기 때문에, 예산 로직은 막연한 기대가 아닌 정확한 수치를 제공합니다.

영수증 (The receipts)

동일한 약 150초 분량의 영상, 모든 티어(tier)에 대해 매니페스트(manifests)를 기준으로 측정한 결과입니다:

빌드 (Build)이미지 (Images)영상 (Video)사운드 (Sound)합계 (Total)
premium (나의 첫 번째 영상)Nano Bananakling, 모든 장면~$10.50
...

$10.50 → $0.06. 약 175배 절감되었으며, 저렴한 버전은 장난감이 아닙니다. 실제 나레이션, 자유로운 움직임, 분위기가 포함되어 실제로 게시된 쇼츠(Short)입니다. 품질의 레버(lever)는 모델 비용의 규모가 아니라, 아트 디렉션(art direction)과 페이싱(pacing)(무료)으로 이동했습니다.

하지만 공정한 주의 사항이 있습니다. $0.06은 의도적으로 최소화한 쇼츠인 _최저점(floor)_입니다. 아트 디렉션 레이어를 최대한 높이면 — 생성된 플레이트(plates)를 활용한 패럴랙스(parallax), 분위기 조성, 빈티지 그레이딩(vintage grade), 꼭 필요한 곳에 배치한 몇 개의 Nano-Banana 히어로 스틸컷 등 — 완전한 아트 디렉션이 적용된 프리미엄급에 가까운 영상은 약 $0.15–0.25 정도에 도달합니다. 이는 모든 과정을 AI로 처리한 ~$10짜리 영상보다 여전히 40~65배 저렴하며, 피드(feed) 상에서 육안으로 구별할 수 없는 품질입니다. 따라서 이 수치를 단일 숫자가 아닌 사다리(ladder)로 이해하십시오:

빌드 (Build)~비용 (~Cost)용도 (When)
floor (최소 효과)$0.06대량 생산, 일회성 테스트
...

정직한 기준점은 중간 단계입니다. "$0.06짜리 쇼츠"가 유인책이라면, 제가 실제로 운영하는 수치는 "0.25달러로 만드는 멋진 쇼츠"입니다.

현장 업데이트: 카탈로그의 실제 비용

저는 그 사다리를 하나의 예측치로 작성했습니다. 그 이후로 저는 실제 백 카탈로그(back-catalog)를 구축했기에, 예측치를 실제 영수증으로 대체할 수 있게 되었습니다. 그리고 그 영수증은 제가 예상했던 것보다 훨씬 더 직설적입니다. 저장소(repo) 내의 날짜가 지정된 실행 건들을 살펴보면, 중간 비용(median cost)은 1센트보다 훨씬 낮으며, 내레이션과 무료 모션(motion)이 포함된 전체 60초 분량의 설명용 쇼츠(Shorts) 중 가장 저렴한 것은 $0.006로 측정되었습니다. 이는 제가 방금 바닥이라고 언급했던 $0.06의 10분의 1 수준입니다. 실제 바닥은 예상보다 한 자릿수(order of magnitude) 더 낮았습니다.

실제 영상 (매니페스트 기준 측정)사용된 요소비용
Chandrasekhar (60s)Flux 스틸 이미지 1장, 무료 모션, edge-TTS$0.006
...

결정적인 차이를 만드는 것은 스크립트(script)나 모션(motion)이 아닙니다. 이들은 모든 항목에서 무료입니다. 정확히 세 가지의 선택적 조절 노브(knobs)가 있습니다: Flux 대신 Nano 스틸 이미지 사용 (영상당 약 $0.14–0.20), 유료 오디오 레이어 (AI SFX 및 stable-audio 배경 음악, 약 $0.20), 그리고 모든 AI 비디오 클립 (ltx를 주요 장면(hero beat)에 사용할 경우 개당 $0.40). 이 세 가지를 모두 끄면 1/6센트 수준에 도달합니다. 세 가지를 모두 켜더라도 여전히 1달러 미만입니다. 다시 $10짜리 영상으로 돌아가는 유일한 방법은 모든 장면에 AI 모션을 사용하는 것인데, 위의 영수증들이 계속해서 말해주듯

그 이유는 소리가 단순히 화면을 장식하는 것이 아니라, 시청자의 상상력을 자극하여 나머지 부분을 렌더링하도록 유도하기 때문입니다. 돌풍, 멀리서 들리는 종소리, 내레이션 아래 깔리는 낮은 첼로 음색: 정지 화면은 단 하나의 얼어붙은 프레임만을 보여주지만, 사운드스케이프 (soundscape)는 마음속에서 움직임과 깊이, 그리고 그 장면이 존재하는 공간을 채워 넣게 만듭니다. 영상이 실제로 담고 있지 않은 더 풍성한 "영상"이 시청자의 머릿속에서 재생되는 것입니다. 단 몇 센트의 오디오가 유도하여, 시청자가 자신의 눈앞에서 실제로 일어나고 있다고 느끼는 제작 가치(production value)의 상당 부분을 차지합니다.

따라서 비용을 절감할 때 사운드는 가장 마지막에 고려되는 요소이며, 대개는 제거되지 않습니다. 사운드는 전체 파이프라인 (pipeline)에서 투자 대비 수익률 (ROI)이 가장 높은 항목입니다. 다른 방법으로는 살 수 없는 분위기와 생동감을 단돈 몇 푼으로 얻을 수 있기 때문입니다. "지출의 규모를 적절히 조정하라 (Right-size the spend)"는 말은 양방향 모두를 의미합니다. 즉, 제 역할을 하지 못하는 비용은 없애고, 적은 비용으로도 엄청난 효과를 내는 저렴한 요소들은 보호하라는 것입니다.

그리고 실제로 더 저렴한 것이 승리한다

방금의 주장은 이론적인 것이 아닙니다. 제가 만든 가장 비싼 영상은 프리미엄 Lobachevsky 편집본이었습니다. 모든 장면에 AI 비디오를 사용했고, 비용은 약 $10.50였으며, 몇 시간 동안 씨름해야 했습니다. 반면 제가 실제로 시도한 가장 저렴한 시도 중 하나는 Ramanujan였습니다. 8개의 Nano-Banana 정지 이미지, 무료 ffmpeg 모션, 그리고 핵심적인 부분에 아주 약간의 저렴한 ltx를 사용했습니다. 측정된 비용은 $0.65였으며, 시작부터 끝까지 약 한 시간 만에 완성했습니다:

🎬 Ramanujan: Math's Divine Genius → youtube.com/shorts/rsk8XruZWBQ

이 65센트짜리 영상은 10달러짜리 영상보다 더 나은 성과를 냈습니다. (시리즈의 데이터 정책에 따라 전체 수치는 파트 7에서 공개됩니다. 하지만 그 방향성은 이미 명확합니다.) 이것이 전체 논거의 실증적인 버전입니다. 즉, 무료 모션이 "조잡해 보이지 않는다"라는 기준을 통과하고 나면, 추가적인 달러를 투입해도 얻을 수 있는 것은 놀라울 정도로 적습니다. 제작 품질은 성공 요인이 거의 아닙니다. 후킹 (hook), 주제, 그리고 이야기가 성공 요인입니다. 따라서 올바른 전략은 비용을 바닥까지 낮추고, 진짜 노력은 어떤 영상을 만들 것인지에 쏟는 것입니다.

이것이 승부의 전부인 이유

$10짜리 영상은 당신이 고뇌하며 만드는 소중한 유물입니다. 하지만 6센트짜리 영상은 하나의 실험 (experiment) 입니다. 6센트라면 100번의 시도에 단 6달러가 들기에, 저는 무엇이 효과가 있는지 추측하는 것을 멈추고 그것을 측정 (measuring) 하기 시작할 수 있습니다. 저렴한 단위 비용 (unit cost)이야말로 "콘텐츠 만들기"를 "콘텐츠에 대한 탐색 (search over content)"으로 바꾸어 놓는 핵심입니다.

이는 당연한 질문을 던지게 합니다. 만약 제가 수백 개의 영상을 저렴하게 만들 수 있다면, 어떤 수백 개의 영상을 만들어야 할까요? 거기에는 지능이 필요합니다. 즉, 무엇이 효과가 있었는지에 대한 기억과 다음에 무엇을 시도할지 결정하는 방법이 필요합니다. 그것이 이 시리즈의 후반부 내용입니다.

다른 AI 엔지니어에게 해주고 싶은 말

핵심 요약 (Takeaway): 모든 것을 가장 저렴한 것으로 구매하는 방식이 아니라, 사용하지 않는 기능을 제거함으로써 비용을 최적화하십시오. 무료 모션 (Free motion)은 초당 영상 비용을 없앴고, 이미지 모델의 규모를 적절히 조절하여 (실사형 vs 평면형) 이미지 비용을 약 8배 절감했으며, auto 전략을 통해 남은 예산을 지각적으로 가치가 있는 장면에만 사용하고, 사전 비행 추정 (pre-flight estimate)을 통해 비용 상한선을 정확하게 맞췄습니다. 보상은 절약된 달러 그 자체가 아닙니다. 충분히 저렴한 단위 비용이 공예 (craft)를 탐색 (search) 으로 전환해 준다는 점이며, 이것이야말로 (다음 장에서 다룰) 학습 루프 (learning loop)를 감당 가능하게 만드는 유일한 방법입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0