AI 비디오 제작 워크플로우 구축하기 — Claude Cowork + ElevenLabs + ffmpeg - Insights | Molayo

9일 전, 저는 오른손 힘줄 수술을 받았습니다. 움직임이 제한된 채 집에 머물게 되면서, Claude의 문서들—Cowork, 예약된 작업(scheduled tasks), skills.md, 그리고 Claude가 사용자 기기와 통합되는 방식—을 깊이 있게 파고들기로 했습니다. 저는 항상 월드컵의 열렬한 팬이었고, 문득 이런 생각이 들었습니다. 'Claude를 사용해서 예측 채널 전체를 자동화할 수 있다면 어떨까?'

2주 후, 저는 YouTube와 TikTok에 14개의 AI 생성 월드컵 쇼츠(shorts)를 게시했습니다. 이것은 제가 이를 어떻게 수행했는지에 대한 기술적 분석—사용된 스택(stack), 통합 방식, 주의사항(gotchas), 그리고 Claude Cowork를 사용하여 제작 워크플로우(production workflows)를 구축하며 배운 점들입니다.

문제 (The Problem)

일관된 스포츠 분석 콘텐츠를 만드는 데는 조사, 스크립트 작성, 음성 녹음(voiceover recording), 영상 편집, 그리고 업로드가 필요합니다. 모두 수동이며, 모두 시간이 많이 소요됩니다.

해결책 (The Solution)

완전 자동화된 파이프라인:

Claude Opus가 경기 일정을 조사하고 스크립트를 작성합니다.
ElevenLabs가 음성(voiceover)을 생성합니다 (일관된 목소리: Arthur).
Python/Pillow가 모션 그래픽 통계 카드(stat cards)를 생성합니다.
ffmpeg가 줌-팬(zoom-pan) 효과와 함께 최종 영상을 조립합니다.
Chrome 내의 Claude가 YouTube + TikTok 업로드를 자동화합니다.
WebSearch가 각 게시물 전 라이브 대진표(live bracket)를 재검증합니다.

카메라도, 스튜디오도, 수동 편집도 없습니다. 오직 실시간 데이터와 독창적인 그래픽뿐입니다.

스택 (The Stack)

Claude Opus — 스크립트 작성, 조사, 통계 검증. 모든 예측은 의견으로 구성되며, 모든 통계는 출처를 밝힙니다.

ElevenLabs (standalone) — Higgsfield가 아닙니다. 독립형 커넥터(standalone connector)가 제 개인 계정으로 비용을 청구합니다. 목소리는 Arthur입니다.

ffmpeg — 로컬 영상 조립. 7개의 통계 카드(1188x2112) 각각은 줌-팬(zoom-pan) 효과와 함께 루프되며, 페이드 인/아웃(crossfades in/out)을 거친 후, 정확히 60초에 맞추기 위해 속도가 조정된 음성(voiceover)과 멀티플렉싱(muxed)됩니다.

Python/Pillow — 카드 생성. 정적 png 파일을 생성하며, 움직임은 ffmpeg의 zoompan 필터에서 만들어집니다.

Claude in Chrome — YouTube Studio + TikTok Studio 자동화. *_PUBLISH.md 팩을 읽고, 제목/설명/고정 댓글을 채우며, 게시하기 전에 제 승인을 받기 위해 멈춥니다.

WebSearch — 일일 대진표(bracket) 검증. 토너먼트(knockouts) 단계에서 대진이 변경되는데, 이 과정이 업로드 전에 이를 포착합니다.

핵심 통합 포인트 (Key Integration Points)

왜 Higgsfield가 아닌 단독 ElevenLabs를 사용하는가?

첫 번째 비디오(브라질 vs 일본) 렌더링 도중 Higgsfield의 크레딧이 0이 되었습니다. 그래서 제 개인 계정으로 결제되는 단독 ElevenLabs로 전환했습니다. 초기에 얻은 교훈입니다.

왜 비디오 조립에 ffmpeg를 사용하는가?

재현성 (Reproducibility) 때문입니다. 모든 카드는 정적인 png 파일입니다. 움직임은 ffmpeg의 줌-팬 필터(zoom-pan filter)를 균일하게 적용하여 만들어냅니다. 계산 방식은 다음과 같습니다:

7개의 카드 × 특정 지속 시간 (6.5s + 9s + 9s + 8s + 11s + 10s + 6.5s ≈ 60s)
음성(Voiceover)은 60초 미만으로 맞추기 위해 atempo=1.08을 사용하여 약 8% 속도를 높임
크로스페이드 (카드당 인/아웃 0.35s) 포함
UI 없음, 수동 클릭 없음 — 순수하게 프로그래밍 방식으로 처리

자동화 게이트 (The automation gate)

Claude가 YouTube/TikTok 업로드를 주도하지만, 어떠한 것도 공개되기 전에 멈춥니다. 제가 제목/설명/고정 댓글을 검토하고, 대진표를 재확인한 뒤, 명시적인 승인을 내립니다. 그러한 인간의 검토 단계(human gate)가 매우 중요합니다.

비디오당 워크플로우 (The Workflow Per Video)

대진(fixture) 선택
검증된 소스를 통한 조사 (모든 통계에는 URL 인용 포함)
스크립트 초안 작성 (130–150 단어, 예측은 의견 형태로 구성)
사용자의 승인
음성(voiceover) + 카드 생성
ffmpeg 빌드 (2–3분)
PUBLISH.md 팩 생성 (제목 옵션, 설명, 고정 댓글, 썸네일 프롬프트)
사용자의 최종 승인
Claude가 두 플랫폼에 업로드
06_published/ 폴더로 아카이브

전체 엔드 투 엔드(end-to-end) 소요 시간: 약 45–60분 (대부분의 시간은 플랫폼 압축 및 인제스트(ingest) 단계에서 소요)

주의 사항 (The Gotchas)

ElevenLabs 경로 오류 (ElevenLabs path wrong) — ffmpeg를 실행하기 전에 항상 mp3 파일을 빌드(build) 폴더로 수동 복사하세요.
ffmpeg의 과도한 크롭 (ffmpeg crops too tight) — 카드를 1080×1920이 아닌 1188×2112로 사전 렌더링하세요. ffmpeg는 더 큰 캔버스에서 스케일링(scaling) 및 팬(panning)을 수행합니다.
VO 타이밍이 60초를 초과함 (VO timing misses 60s) — atempo 필터를 조정하고 (1.06 또는 1.10 시도) ffprobe로 테스트하세요.
Chrome에 잘못된 계정으로 로그인됨 (Wrong account signed into Chrome) — Chrome을 닫고, 모든 곳에서 로그아웃한 뒤, 올바른 Google/TikTok 계정으로 다시 로그인하세요. 확장 프로그램(Extension)은 프로필을 기억합니다.
대진표 변경 (Bracket changed) — 업로드 전에 항상 WebSearch 재확인을 실행합니다. 게시하기 전에 이를 잡아낼 수 있습니다.

규칙 (협상 불가) (The Rules (Non-Negotiable))

모든 통계는 현재의 출처를 인용해야 함 (예외 없음)
예측은 의견/엔터테인먼트로 구성하며, 절대 사실로 다루지 말 것
모든 업로드 시 AI 사용 사실을 공개할 것 (설명란 + 고정 댓글)
모든 스크립트는 제작 전 서면 승인을 받아야 함
게시 전마다 라이브 대진표를 재확인할 것 (토너먼트 기간 중에는 매일 변경됨)

이것이 중요한 이유 (Why This Matters)

이 접근 방식은 콘텐츠 제작을 스튜디오 제작으로부터 분리합니다. 회복 시간은 학습 시간이 됩니다. 건(tendon) 부상은 흥미로운 무언가를 구축하기 위한 변명이 됩니다.

채널은 https://www.youtube.com/channel/UCuLBTmlmLr8AHAhqwLKE6Ew에서 운영 중이며, 14개의 32강(Round of 32) 영상이 게시되었습니다. 각 영상은 100% 생성되었으며, AI 사용에 대해 100% 투명하고, 100% 출처를 밝히고 있습니다.

사용된 스택(stack)이 궁금하신가요? 전체 공개 정보와 도구 링크는 채널 설명 및 고정 댓글을 확인하세요.

AI 비디오 제작 워크플로우 구축하기 — Claude Cowork + ElevenLabs + ffmpeg

요약

핵심 포인트