ViMax 리뷰: HKUDS의 에이전트 기반 멀티 씬 비디오 생성

2025년 AI 비디오를 무너뜨린 세 가지 한계

2024~2025년 사이에 소비자 인지도를 확보한 모든 AI 비디오 생성 도구들 — Sora, Runway Gen-3, Pika, Luma Dream Machine, OpenSora — 는 동일한 세 가지 한계를 공유했습니다:

짧은 클립만 가능. 5~10초가 실질적인 한계였습니다. 이보다 길어지면 일관성(Consistency)이 무너졌습니다.
일관성의 혼란. 동일한 캐릭터가 샷 사이에서 얼굴이 바뀝니다. 동일한 방의 소품들이 재배치됩니다. 단일 프롬프트 파이프라인(Single-prompt pipeline)은 "장면 1의 그 개"라는 개념이 없습니다.
시각 전용 출력. 스크립트도, 서사적 구조(Narrative arc)도, 동기화된 오디오도 없습니다. 움직이는 예쁜 그림을 얻었을 뿐, _영화(Film)_를 얻은 것은 아니었습니다.

소셜 미디어 클립용으로는 이러한 한계가 용인될 수 있었습니다. 하지만 설명 영상, 교육 콘텐츠, 브랜드 내러티브 등 AI를 사용하여 실제로 _이야기를 전달_하고자 하는 사람들에게는, 사용자가 장면 2가 장면 1로부터 논리적으로 이어지기를 원하는 순간 파이프라인이 무너졌습니다.

ViMax (GitHub: HKUDS/ViMax, 2026년 5월 기준 9,807개 이상의 스타)는 홍콩 대학교 데이터 사이언스 랩(Hong Kong University Data Science Lab)에서 개발한 것으로, 비디오 생성을 단발성 생성(One-shot generation) 문제가 아닌 멀티 에이전트 오케스트레이션(Multi-agent orchestration) 문제로 다룸으로써 이러한 한계를 깨뜨리려는 최초의 널리 채택된 오픈 소스 시도입니다.

슬로건은 명확하게 말합니다: "감독, 시나리오 작가, 프로듀서, 그리고 비디오 생성기가 하나로."

네 가지 에이전트 역할

ViMax의 아키텍처적 선택: 실제 세계의 비디오 제작은 다중 역할 파이프라인이므로, AI 비디오 제작도 그러해야 한다는 것입니다. 이 프레임워크는 각각 LLM(대규모 언어 모델) 기반의 서로 다른 작업을 수행하는 네 가지 자율 에이전트 역할을 정의합니다:

🎬 시나리오 작가 (Screenwriter)

높은 수준의 아이디어("고양이와 강아지가 친구가 되고, 그 후 새로운 고양이를 만난다")를 받아 캐릭터, 장면 분할(Scene segmentation), 대사, 전환을 포함한 _전체 구조화된 스크립트_를 생성합니다. 긴 이야기를 지능적으로 멀티 씬 형식으로 분할할 수 있는 **RAG 기반 롱 스크립트 엔진(RAG-based long script engine)**을 사용합니다. 이는 1분 이상의 비디오를 일관성 있게 만드는 계층입니다.

🎭 감독 (Director)

스크립트를 _샷 레벨 스토리보드 (shot-level storyboard)_로 변환합니다. 멀티 카메라 설정, 프레이밍 (framing), 페이싱 (pacing), 장면 전환 (scene transitions)을 결정합니다. 하위 생성기 (downstream generator)가 렌더링할 수 있는 명시적인 샷 설명을 출력합니다.

🎯 프로듀서 (Producer)

일관성 엔진 (consistency engine)입니다. 참조 이미지 (reference images)를 선택하고, 동일한 캐릭터가 여러 샷에서 동일하게 보이는지 검증하며, 리소스를 조율하고, MLLM (멀티모달 LLM, multimodal LLM) 일관성 검사를 실행합니다. 이는 "캐릭터 재배치 (character reshuffling)" 문제를 해결하는 계층입니다.

🎥 비디오 생성기 (Video Generator)

최종 렌더링 계층입니다. 샷을 병렬로 생성하고, 각 프레임에 대한 이미지를 합성하며, 프레임을 비디오로 조립합니다. 실제 픽셀 레벨 (pixel-level) 생성은 하위 모델 (Veo 등)로 위임합니다.

각 역할은 고유한 프롬프트 (prompt), 고유한 컨텍스트 윈도우 (context window), 그리고 고유한 결정론적 출력 계약 (deterministic output contract)을 가진 별도의 LLM 에이전트 (agent)입니다. 이는 12-Factor Agents의 10번 요소 ("작고 집중된 에이전트, small, focused agents")를 교과서적으로 적용한 사례입니다.

기술 스택 (Tech Stack)

언어 (Language): Python 3.12, uv로 관리.
멀티 에이전트 프레임워크 (Multi-agent framework): 커스텀 오케스트레이션 (orchestration) 계층.
지원되는 채팅 모델 (Chat models supported): Google Gemini 2.5 Flash Lite (OpenRouter 경유), MiniMax-M2.7 (1M 컨텍스트), MiniMax-M2.5 (204K 컨텍스트). 긴 컨텍스트 윈도우가 중요합니다. 시나리오 작가 (Screenwriter) 에이전트는 전체 스크립트를 작업 메모리에 유지해야 하기 때문입니다.
이미지 생성 (Image generation): Google Nanobana API.
비디오 생성 (Video generation): API를 통한 Google Veo.
라이선스 (License): MIT — 코드는 허용적이지만, 상위 모델 API에는 자체적인 상업적 이용 약관이 적용됩니다.

픽셀 레벨 생성을 상용 API (Veo, Nanobana)로 위임하기로 한 선택은 솔직한 결정입니다. 오픈 소스 비디오 모델은 아직 최첨단 상용 모델의 시각적 품질을 따라잡지 못했으며, 그렇지 않은 척하는 것은 데모의 신뢰도를 떨어뜨릴 수 있기 때문입니다. ViMax의 기여는 _오케스트레이션 (orchestration)_에 있습니다. 즉, 사용자가 직접 픽셀 엔진을 가져와 사용할 수 있게 하는 것입니다.

빠른 설정 (Quick Setup)

git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync

의존성 설치는 이것으로 끝납니다. 최소 하나 이상의 채팅 모델(Gemini를 위한 OpenRouter가 작동함)에 대한 API 키와 비디오/이미지 생성을 위한 Google의 Veo + Nanobana API가 필요합니다.

Idea-to-Video 워크플로우 (Idea-to-Video Workflow)

idea = "고양이와 강아지가 절친이라면, 새로운 고양이를 만났을 때 어떤 일이 벌어질까?"
user_requirement = "어린이용이므로 3개 장면을 초과하지 말 것."
style = "만화(Cartoon)"
...

Screenwriter(시나리오 작가)가 아이디어를 3개 장면의 스크립트로 확장합니다. Director(감독)는 샷(shot)을 계획합니다. Producer(프로듀서)는 참조(reference)를 선택하고 일관성을 강제합니다. Video Generator(비디오 생성기)는 각 장면을 렌더링하고 조립합니다.

Script-to-Video 워크플로우 (Script-to-Video Workflow)

이미 시나리오를 가지고 있는 사용자의 경우, main_script2video.py가 스크립트를 직접 가져와 Screenwriter 단계를 건너뜁니다. 나머지 세 개의 에이전트는 여전히 실행됩니다.

Sora, Runway, OpenSora와의 차이점

측면 (Aspect)	ViMax	Sora / Runway / OpenSora
파이프라인 (Pipeline)	멀티 에이전트 (Script → Storyboard → Assets → Video)	직접 프롬프트 → 비디오
...

솔직한 비교: Sora와 Runway는 샷당 픽셀 수준의 품질(pixel-level quality)이 눈에 띄게 더 좋습니다. ViMax는 샷 간의 일관성(coherence across shots) 측면에서 승리합니다. 10초짜리 기술 데모가 필요하다면 Sora가 승리합니다. 만약 4번째 장면에서도 강아지가 여전히 같은 강아지여야 하는 90초짜리 설명 영상이 필요하다면, ViMax의 오케스트레이션(orchestration)이 당신이 원하는 것입니다.

ViMax가 아닌 것 (What ViMax Is NOT)

기대를 조정하기 위해 말씀드리자면:

완전한 오픈 소스 비디오 모델이 아닙니다. 이 모델은 상용 비디오/이미지 모델에 대한 호출을 오케스트레이션(orchestration)합니다. 엔드 투 엔드(end-to-end) 셀프 호스팅을 하려면 오픈 비디오 모델 레이어가 따라잡을 때까지 기다려야 합니다.
노코드(no-code) 도구가 아닙니다. 현재 인터페이스는 Python 스크립트와 설정 파일(config files)로 구성되어 있습니다. 에이전트(agentic) 부분은 정교하지만, UX(사용자 경험)는 "연구용 프로토타입" 수준입니다.
아직 정식 릴리스되지 않았습니다. main 브랜치에 329개의 커밋이 있지만, 태그된 릴리스는 없습니다. API의 잦은 변경(churn)을 예상해야 합니다.
README에 성능 벤치마크가 없습니다. ViMax는 정성적(qualitative) 이점(일관성, 길이, 서사)을 마케팅하며, 정량적(quantitative) 절제 연구(ablations) 결과는 아직 공개되지 않았습니다.
Google API 의존성. Veo와 Nanobana는 무료가 아니며 오픈 소스도 아닙니다. 비용을 고려해야 합니다.

실제 사용 사례 (Real Use Cases)

ViMax의 에이전트 기반 파이프라인이 실제로 가치를 만들어내는 분야는 다음과 같습니다:

교육용 / 설명 영상 — 멀티 씬(multi-scene), 캐릭터 연속성, 서사 구조를 갖춘 영상. 전형적인 "교사의 음성과 애니메이션 예시"가 결합된 형식입니다.
어린이용 콘텐츠 — 장면 전반에 걸쳐 일관된 캐릭터가 등장하는 짧은 이야기(README의 예시 사용 사례).
마케팅 스토리보드 — 캠페인 브리프로부터 전체 스크립트와 스토리보드를 생성한 후, (더 비용이 많이 드는) 생성 단계로 넘어가기 전에 마케팅 팀의 승인을 받는 방식입니다.
롱폼(Long-form) 소셜 콘텐츠 — 이미 피드를 포화시키고 있는 5초짜리 단일 샷 클립 대신, 일관된 마이크로 내러티브(micro-narrative)를 가진 60~90초 분량의 TikTok / Reels 콘텐츠.
영화/TV 프리비즈(Pre-visualization) — 실제 제작 계획을 위해 캐릭터 일관성을 유지하면서도 저렴하게 수행할 수 있는 프리비즈.

이 각각의 사례에서 ViMax가 없는 대안은 비용이 많이 드는 인간의 제작이거나, 이야기를 유지할 수 없는 짧은 클립 위주의 AI 도구뿐입니다.

2026년 AI 비디오 환경에서 ViMax의 위치

ViMax를 다음과 같은 것들과 결합하십시오:

이미지 생성기 (Image generators) — 이미 통합되어 있음 (Nanobana), 하지만 자체 호스팅 가능한 이미지 생성 워크플로우 (image gen workflows)를 위해 Stable Diffusion / ComfyUI로 교체할 수 있습니다.
보이스오버를 위한 TTS (TTS for voiceover) — 온디바이스 다국어 음성을 위한 Supertonic; ViMax와 결합하여 완전히 통합된 내레이션 비디오를 제작할 수 있습니다.
롱 컨텍스트 LLM (Long-context LLMs) — MiniMax-M2.7의 1M 컨텍스트는 전체 기능 스크립트를 위한 실질적인 선택입니다. 12요소 원칙 중 "컨텍스트 창을 소유하라 (own your context window)"가 적용됩니다. 즉, Screenwriter 에이전트는 컨텍스트 규율이 가장 중요한 지점입니다.

ViMax + Supertonic + 오픈 소스 이미지 생성의 조합은 2026년 현재 사용자의 통제 하에 있는 "영화에 대해 설명하면 영화가 나오는" 파이프라인에 가장 근접한 형태입니다.

ViMax를 시도해야 할 대상

다음의 경우 설치하십시오:

30초 이상의 서사적 일관성(narrative-coherent)을 가진 비디오가 필요한 경우.
최종 생성에 대해 Google API 요금을 지불할 용의가 있지만, 오케스트레이션(orchestration)은 직접 제어하고 싶은 경우.
멀티 에이전트(multi-agent) 크리에이티브 워크플로우를 연구 중이며 참조 구현체가 필요한 경우.
클라이언트를 위한 콘텐츠 툴링을 구축하며, 사람이 검토할 수 있는 초안을 몇 분 만에 생성할 수 있는 파이프라인을 원하는 경우.

다음의 경우 건너뛰십시오:

10초 내외의 단일 샷(single-shot) 비디오가 필요하며 Sora/Runway가 이미 만족스러운 경우.
연구자급(researcher-grade) Python 툴링 사용이 익숙하지 않은 경우.
완전히 자체 호스팅되는 엔드 투 엔드(end-to-end) 시스템이 필요한 경우 (오픈 비디오 모델의 다음 사이클을 한 번 더 기다리십시오).

판결

ViMax는 AI 비디오 품질의 다음 도약이 더 큰 모델이 아니라, 더 나은 오케스트레이션(orchestration)에 있다는 것을 보여주는 2026년의 가장 신뢰할 만한 증거입니다. HKUDS는 비디오 제작을 Director, Screenwriter, Producer, Generator라는 별도의 역할을 가진 멀티 에이전트 문제로 다룸으로써, 단일 프롬프트 확산 모델(single-prompt diffusion model)이 근본적으로 제공할 수 없는 장편의 일관된 비디오를 구현해 냈습니다.

MIT 라이선스, HKUDS의 학술적 지원, 그리고 몇 달 만에 기록한 9,807개의 스타는 오픈 비디오 커뮤니티가 기다려온 도구임을 시사합니다. 아직 초기 단계입니다. 공식 릴리스가 없고, 벤치마크가 없으며, 상용 API에 대한 강력한 의존성(hard dependency)이 존재하지만, 아키텍처(architecture)는 올바른 방향을 잡고 있습니다. 향후 12개월 동안 이러한 패턴(생성 모델의 에이전트 기반 오케스트레이션 (agentic orchestration of generation models))이 모든 크리에이티브 AI 수직 계열(vertical)로 확산될 것으로 예상됩니다.

만약 여러분이 스크립트를 사용하여 비디오를 제작해 본 적이 있다면, 이것은 마침내 실제 작업 방식과 일치하는 AI 워크플로(workflow)입니다.

GitHub: HKUDS/ViMax · License: MIT · Stars: 7.1K+ · Authors: Hong Kong University Data Science Lab · Status: 활발히 개발 중, 아직 태그된 릴리스 없음

셀프 호스팅을 위한 권장 인프라 (Recommended Infrastructure for Self-Hosting)

이 스택(stack)을 24시간 내내 안정적으로 실행하려면 인프라 선택이 중요합니다:

DigitalOcean — 14개 이상의 글로벌 리전에서 60일 동안 사용할 수 있는 200달러 무료 크레딧을 제공합니다. 오픈 소스 AI 도구를 실행하는 인디 개발자들의 기본 선택지입니다.
HTStack — 중국 본토로부터 낮은 지연 시간(low-latency) 접속이 가능한 홍콩 VPS입니다. dibi8.com이 이곳에 호스팅되어 있으며, 프로덕션 환경에서 검증되었습니다.

제휴 링크(Affiliate links) — 추가 비용이 발생하지 않으며 dibi8.com을 운영하는 데 도움이 됩니다.