AI 에이전트를 사용하여 제품 영상을 제작했습니다. 비용은 0달러였지만, 함정이 있습니다.
요약
오픈 소스 에이전트 기반 영상 제작 시스템인 OpenMontage를 활용해 AI 에이전트가 전문적인 설명 영상을 제작할 수 있는지 테스트한 사례입니다. 에이전트가 리서치부터 렌더링까지 전 과정을 수행하지만, 자막 생성 등 세부적인 디테일에서 한계를 보였습니다.
핵심 포인트
- OpenMontage는 에이전트가 조종할 수 있는 파이프라인과 도구의 툴킷임
- 비디오 분석기를 통해 피사체, 움직임, 장면 등 영화적 분석 가능
- 에이전트가 스크립트에 맞춰 비디오 길이를 자동으로 재조정함
- 자막 생성 등 정교한 편집 단계에서는 여전히 기술적 한계 존재
AI 에이전트가 푼돈으로 전문적인 설명 영상(Explainer Video)을 만들 수 있을까요?
오픈 소스 에이전트 기반 영상 제작 시스템인 OpenMontage와 같은 프로젝트의 약속은 매우 매혹적입니다. 평범한 영어로 영상을 설명하기만 하면, AI 에이전트가 나머지를 처리한다는 것입니다. 리서치(Research), 스크립트 작성(Scripting), 에셋 생성(Asset generation), 편집(Editing), 렌더링(Rendering)까지—전체 스택(Full stack)을 담당합니다. 이를 실제 환경에서 테스트하기 위해, 저는 에이전트에게 결코 가볍지 않은 주제인 '로컬 퍼스트 소프트웨어(local-first software)'에 관한 75초 분량의 설명 영상을 제작하라는 과제를 부여했습니다. 목표는 애니메이션 다이어그램(animated diagrams), 추상적인 B-roll, 그리고 깔끔한 텍스트 오버레이(text overlays)가 결합된 형태, 즉 전형적인 테크 설명 영상이었습니다. 질문은 간단했습니다. 에이전트가 전문적인 결과물을 내놓을 수 있을 것인가, 그리고 그 실제 비용은 얼마인가?
계획: 순조로운 시작과 기준점
OpenMontage를 시작하는 것은 매우 쉬웠습니다. 잘 문서화된 선행 조건인 FFmpeg를 설치하는 것 외에, make setup 명령어가 모든 Python 및 Node 의존성(dependencies)을 깔끔하게 처리했습니다. 여정은 빈 프롬프트(prompt)가 아니라, 제가 세련미와 최신성을 고려해 선택한 참조 영상(reference video)과 함께 시작되었습니다. 바로 Linear의 "Introducing Linear Agent"였습니다. OpenMontage의 비디오 분석기(video analyzer)는 YouTube URL을 입력받아 단순한 전사(transcript)보다 훨씬 더 통찰력 있는 결과물을 반환했습니다. 이는 피사체(subject), 움직임(motion), 장면(scene), 프레이밍(framing), 카메라(camera)라는 다섯 가지 측면의 영화적 분석(cinematographic breakdown)을 생성했으며, 심지어
에이전트는 스크립트 비트(script beats)를 에셋(assets) 및 모션 디자인(motion design)에 매핑한 상세한 75초 타임라인인 STORYBOARD.md를 반환했습니다. 결과물이 탄탄해 보였기에 저는 승인을 내렸습니다. 구축 중간에 핵심적인 통찰이 드러났습니다. OpenMontage는 그 자체로 에이전트가 아니라는 점입니다. README에 명시된 것처럼, "당신의 AI 코딩 어시스턴트(AI coding assistant)가 바로 오케스트레이터(orchestrator)입니다." 이 프로젝트는 외부 에이전트에 의해 휘둘러지도록 설계된 파이프라인(pipelines), 도구(tools), 기술(skills)의 강력한 툴킷입니다. 저의 경우, Antigravity CLI (agy)가 그 역할을 했습니다. 이는 실험의 관점을 재정립했습니다. 저는 단일 구조의 제품(monolithic product)을 테스트하는 것이 아니라, 이 제품의 도구와 지침이 제가 선택한 에이전트를 얼마나 잘 조종할 수 있는지를 테스트하고 있었던 것입니다.
첫 번째 렌더링 시도는 성과와 실패가 섞여 있었습니다. 에이전트는 로컬 Piper TTS 모델의 내레이션이 예상보다 빠르다는 점을 고려하여, 비디오 길이를 75초에서 53초로 정확하게 재조정(re-timed)했습니다. 하지만 한계에 부딪히기도 했습니다. 스토리보드에는 "당사의 트랜스크라이버(transcriber)를 통해 생성된 전용 자막 트랙"이라는 모호한 설명이 있었습니다. 결과는 어땠을까요? 전체 스크립트가 [_BEG_]와 같은 가공되지 않은 트랜스크라이버 토큰(transcriber tokens) 및 어색한 단어 분리(CR DT)와 함께 화면에 한꺼번에 쏟아져 나왔습니다. 이는 에이전트 워크플로(agentic workflows)에 대한 완벽한 교훈을 주었습니다. 계획에서 가장 모호한 문장이 바로 시스템이 무너지는 지점이라는 사실입니다.
첫인상: 완성된 제품이 아닌, 미대생의 과제물
고장 난 캡션 트랙을 제거한 후, 저는 첫 번째 완성본을 시청했습니다. 결론은 즉각적이었습니다. 응집력이 있고 주제에 부합했지만, 전문적인 설명 영상(explainer)이라기보다는 미대생의 영상 프로젝트처럼 보였습니다. 문제는 실질적이었습니다:
-
정보 누락 (Missing Information): 영상에서 핵심 기술 개념인 CRDTs를 언급했지만, 이에 대한 설명이나 도식(diagram)은 전혀 제공되지 않았습니다. 프로세스 초기에 발생한 중대한 GCP 과금 문제로 인해 Google의 Imagen 사용이 차단되었고, 대체된 비주얼(fallback visuals)들이 이러한 설명적 공백을 메우지 못했습니다.
-
동기화 문제 (Sync Issues): 화면상의 텍스트와 글머리 기호가 내레이션과 자주 어긋났으며, 때로는 몇 초 일찍 나타나거나 순서가 뒤바뀌기도 했습니다.
-
아마추어 같은 미학 (Amateur Aesthetics): 타이포그래피(typography)는 마치 PowerPoint 슬라이드 같았고, B-roll 클립들은 개별적으로는 괜찮았지만 무작위로 반복되었습니다.
에이전트는 분위기(vibe)는 제대로 잡았지만, 실질적인 내용(substance)에서는 실패했습니다. 설명이 필요한 곳에 분위기만 조성해 놓은 셈입니다.
반복(Iteration)과 품질 정체기
저는 에이전트에게 타이밍을 수정하고 CRDTs를 설명하는 도식을 추가하라는 구체적인 수정 작업을 지시했습니다. 에이전트는 동기화 문제를 성공적으로 해결했고, 도식을 위한 Mermaid 플로우차트(flowchart)를 생성했습니다. 이는 확실한 개선이었지만, 동시에 에이전트의 한계를 드러내기도 했습니다. Mermaid 도식은 기술적으로는 정확했지만, 세련된 제품 영상에는 전혀 맞지 않는 기업용 IT 발표 자료 같은 미학을 가지고 있었습니다. 결과물은 품질 정체기(quality plateau)에 도달했습니다. 세부 사항을 반복해서 수정할 수는 있었지만, 근본적인 느낌은 여전히 아마추어 수준에 머물러 있었습니다. 이것이 작업의 중단 지점이었습니다.
마찰, 놀라움, 그리고 실제 비용
이 과정은 또한 몇 가지 흥미롭고 교훈적인 마찰 지점들을 드러냈습니다. 어느 시점에서 에이전트는 긴 사고 과정에 빠진 듯 조용히 멈춰 섰습니다. 알고 보니 숨겨진 권한 승인 프롬프트(permission prompt)를 기다리고 있었던 것이었는데, 이는 에이전트의 기저 프로세스(underlying processes)를 확인해야 한다는 점을 상기시켜 주었습니다. 더욱 놀라운 점은, 에이전트가 .env 파일에서 API 키를 로드하는 방식의 버그를 수정하기 위해 OpenMontage의 소스 코드를 자율적으로 패치(patch)했다는 사실입니다.
하지만 가장 중요한 교훈은 비용에 관한 것이었습니다. 영상 제작에 들어간 최종 비용은 사실상 0달러였습니다. Google의 Imagen API를 호출한 몇 차례의 요청은 무료 티어(free tier) 범위 내에 있었습니다. 하지만 그 과정까지 가는 것이 공짜는 아니었습니다. 단 하나의 GOOGLE_API_KEY가 Google의 모든 서비스를 열어주는 것은 아닙니다. Gemini용 키는 Cloud Text-to-Speech나 Imagen에서 즉시 작동하지 않습니다. Imagen을 사용하려면 Google Cloud 프로젝트에서 결제 기능을 활성화해야 했으며, 이 과정에서 10달러의 최소 선불 결제가 필요한 새로운 결제 계정을 설정하기 위해 10분 정도의 우회 과정이 필요했습니다.
이것이 바로 결정적인 주의사항(asterisk)입니다. 영상을 만드는 데 드는 *한계 비용 (marginal cost)*은 몇 푼 되지 않았지만, *진입 장벽 (floor to enter)*은 10달러와 관료적인 설정 절차였습니다. 소액의 비용만 들 것이라는 약속은 사실이지만, 그 단계로 진입하는 과정(on-ramp)은 공짜가 아닙니다.
결론: 한계가 있는 강력한 도구
그렇다면, 제가 OpenMontage를 다시 사용할 것인가요? 당연합니다. OpenMontage는 단순한 프롬프트만으로 복잡한 제작 파이프라인 (production pipeline)을 오케스트레이션하며 사실상 비용 없이 핵심적인 약속을 이행했습니다. 클라우드 영상 도구들에 비해 경제적 이점이 놀라울 정도입니다. 수동 영상 편집의 세계에서 온 저에게, 단 하나의 프롬프트로 스크립트나 타이밍을 반복 수정(iterate)할 수 있는 능력은 초능력처럼 느껴집니다.
하지만 결과물에는 한계가 있습니다. 최종 결과물이 전문적인 느낌을 주지는 못했습니다. 주요 워크플로우의 공백은 시각적 자산 (visual assets)이 최종 합성 (composition)에 포함되기 전에 쉽게 검토할 수 없다는 점입니다. 진정으로 세련된 결과물을 얻으려면, 에이전트 (agent)에게 힘든 작업을 맡기되 스크립트, 시각적 선택, 그리고 최종 합성을 수동으로 가이드하는 더 직접적인 접근 방식이 필요할 것입니다.
OpenMontage는 에이전트 기반의 영상 제작이 가능할 뿐만 아니라 믿을 수 없을 정도로 비용 효율적이라는 것을 증명합니다. 비용의 1%만으로 목표의 80%까지 도달할 수 있습니다. 하지만 나머지 20%의 격차를 메우기 위해서는 여전히 인간의 손길이 필요합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기