HKUDS/ViMax

❌
짧은 클립에 국한됨 (Limited to Short Clips)
대부분의 AI 도구는 단 몇 초의 영상만 생성합니다.
❌
일관성 혼란 (Consistency Chaos)
프레임 전반에 걸쳐 캐릭터와 장면이 예측 불가능하게 변합니다.
❌
시각적 요소에만 집중 (Visual-Only Focus)
스크립트, 오디오, 서사 구조 및 스토리텔링의 깊이가 부족합니다.

🎬 감독 (Director), 시나리오 작가 (Screenwriter), 프로듀서 (Producer), 그리고 **비디오 생성기 (Video Generator)**가 모두 하나로 (All-in-One)! 우리는 AI가 완전한 창의적 역량을 갖춘 핵심 동력이 되는 미래를 탐구하고 있습니다. 💡 단순히 당신의 컨셉을 입력하세요. ViMax가 나머지를 자율적으로 처리합니다. ViMax는 시나리오 작성 (scriptwriting), 스토리보드 제작 (storyboarding), 캐릭터 생성 (character creation), 그리고 최종 비디오 생성 (final video generation)을 엔드 투 엔드 (end-to-end)로 조율합니다. 🚀

vimax_demo.mp4

f1.mp4 |

underwater.mp4 |

otter.mp4 |

carrier.mp4 |

vampire.mp4 |

skydiving.mp4 |

tree.mp4 |

cameo_skycastle.mp4 |

cameo_cat.mp4 |

과제 (The Challenges):

🌅

참조 이미지 (Reference Images): 캐릭터, 사물, 위치 및 환경을 정확하게 포착하는 참조 프레임 (reference frames)을 획득, 정리 및 정렬하는 데 많은 시간이 소요됩니다. -
🫠

일관성 체크 (Consistency Check): 때때로 이미지 생성기 (image generator)가 올바른 캐릭터, 위치, 환경 참조 이미지 및 프롬프트 (prompts)를 제공받더라도 사용할 수 없는 이미지를 생성할 수 있습니다. -
📄

스크립트 생성 (Scripts Generation): 전문적이고 고품질인 영상을 위해서는 풍부한 정보 밀도와 구조화된 설계가 필요합니다. -
📝

스토리보드 디자인 (Storyboard Design): 이야기를 시각적 서사로 변환하려면 대부분의 창작자가 부족한 촬영 기법 (cinematography), 장면 구성 (scene composition), 시각적 스토리텔링 (visual storytelling)에 대한 전문 지식이 필요합니다. -
🎬

샷 디자인 (Shot Design): 복잡한 장면 전반에 걸쳐 서사의 흐름을 유지하면서 적절한 각도, 전환 (transitions), 페이싱 (pacing)을 갖춘 일관된 카메라 시퀀스 (camera sequences)를 만드는 작업입니다. -
🎨

개발 지연 (Development Delays): 장편 콘텐츠의 수백 개의 샷 (shots)에 걸쳐 캐릭터의 외형, 환경 및 예술적 스타일이 일관되게 유지되도록 보장해야 합니다. -
⏱️

제작 효율성 (Production Efficiency): 전통적인 영상 제작은 여러 명의 전문가와 긴 워크플로우 (workflow)를 필요로 하며, 이는 독립 크리에이터와 빠른 프로토타이핑 (prototyping)에 장벽이 됩니다. -
🎥

AI 생성 비디오의 확장 (Scaling AI Generated Video): AI로 생성된 비디오는 보통 몇 초 길이에 불과합니다. 분 단위 또는 시간 단위의 고품질 장편 비디오를 제작하려면 복잡한 장면 간 연속성 (cross-scene continuity) 및 다중 스토리보드 (multi-storyboards) 설계와 처리 능력이 필요합니다.

ViMAX: 서사 입력부터 최종 비디오 출력까지 전체 비디오 제작 파이프라인 (pipeline)을 자동화하여 이러한 제작 병목 현상을 제거합니다.

🧠 손쉬운 제작 |
🚀 완전한 창의적 자유 |
🔊 오디오 및 비디오 결합 |
🎨 전문적인 품질 |
🤩 인터랙티브 비디오 |
|---|---|---|---|---|
| 원 프롬프트로 완성된 비디오 | 어떤 서사든 현실로 | 동기화된 스토리텔링 | 영화급 결과물 | 나만의 카메오 비디오 만들기 |
| 기술적 복잡함을 건너뛰세요—당신의 비전을 설명하기만 하면 ViMax가 스크립트 생성, 스토리보딩 (storyboarding), 샷 설계 (shot design), 참조 관리 (reference management), 그리고 일관성 검증 (consistency validation)을 처리합니다 | 창의적 한계는 없습니다—트레일러, 단편 이야기, 소설의 한 장, 또는 독창적인 컨셉 등 무엇이든 ViMax가 지능적으로 서사를 구조화하고 촬영 기법 (cinematography)을 설계하여 어떤 아이디어든 생명력을 불어넣습니다 | 캐릭터의 목소리, 효과음과 시각적 콘텐츠를 매끄럽게 통합하여 오디오와 비디오가 완벽한 조화를 이루는 몰입형 경험을 만듭니다 | 자동화된 품질 관리 (quality control)를 통해 비디오의 모든 프레임에 걸쳐 캐릭터 일관성, 적절한 장면 구성, 그리고 전문적인 시각적 표준을 보장합니다 | 당신의 사진을 업로드하여 당신만의 단편 이야기 속에서 상호작용하세요—ViMax는 비디오 전체에 걸쳐 일관된 외형과 자연스러운 상호작용을 가진 캐릭터로 당신을 지능적으로 통합합니다 |

👨💻
Google AI Studio API 설정 (config)✅ - 📹
개발 모드 브랜치 (Dev mode branch) - 🤳
AutoCameo 통합 (integrate) - 📺
더 많은 데모 (More demos) - 🎞️
샷 계획 (Shot planning) - 🤖
새로운 기능 (New features)

ViMax는 캐릭터와 장면의 일관성 (Consistency)을 보장하면서 자동화된 멀티샷 비디오 생성을 가능하게 하는 멀티 에이전트 (Multi-agent) 비디오 프레임워크입니다. 저희 시스템은 사용자의 아이디어를 해당 비디오로 원활하게 변환하여, 기술적인 구현보다는 스토리텔링에 집중할 수 있도록 돕습니다.

🎯 기술적 역량 (Technical Capabilities):

🧬 지능형 롱 스크립트 생성 (Intelligent Long Script Generation)

RAG (Retrieval-Augmented Generation) 기반의 롱 스크립트 설계 엔진으로, 소설처럼 긴 이야기를 지능적으로 분석하고 이를 자동으로 멀티 씬 스크립트 형식으로 분할합니다. 이 과정은 모든 주요 플롯 전개와 캐릭터 대화가 새로운 구조 내에 정확하게 유지되도록 세심하게 보장합니다.

🪄 표현력이 풍부한 스토리보드 설계 (Expressive Storyboard Design)

사용자의 요구 사항과 타겟 관객을 바탕으로 촬영술 (Cinematography) 언어를 통해 표현력이 풍부한 스토리보드를 생성하는 샷 레벨 (Shot-level) 스토리보드 설계 시스템이며, 이는 후속 비디오 생성을 위한 서사적 리듬을 설정합니다.

🔮 멀티 카메라 촬영 시뮬레이션 (Multi-camera Filming Simulation)

동일한 장면 내에서 일관된 캐릭터 배치와 배경을 유지하면서 몰입감 있는 시청 경험을 제공하기 위해 멀티 카메라 촬영을 시뮬레이션합니다.

🧸 지능형 참조 이미지 선택 (Intelligent Reference Images Selection)

비디오가 길어짐에 따라 여러 캐릭터와 환경 요소의 정확성을 보장하기 위해, 이전 타임라인에서 발생한 스토리보드를 포함하여 현재 비디오의 첫 프레임에 필요한 참조 이미지를 지능적으로 선택합니다.

⚙️ 자동 이미지 생성 (Automated Images Generation)

선택된 참조 이미지와 이전 타임라인의 시각적 논리 순서를 기반으로, 이미지 생성기의 프롬프트 (Prompt)가 자동으로 생성되어 캐릭터와 환경 사이의 공간적 상호작용 위치를 합리적으로 배치합니다.

✅ 자동 이미지 생성 일관성 체크 (Automated Image Generation Consistency Check)

여러 이미지를 병렬로 생성하고, 인간 창작자의 워크플로우 (Workflow)를 모방하여 MLLM/VLM을 통해 가장 일관된 이미지를 첫 프레임으로 선택합니다.

⚡ 고효율 병렬 샷 생성 (High-efficiency Parallel Shot Generation)

동일한 카메라에서 촬영된 연속적인 샷(sequential shots)을 위한 병렬 처리(Parallel processing)는 매우 효율적인 비디오 제작을 가능하게 합니다.

🧠 입력 계층 (INPUT LAYER) 📝 아이디어 & 스크립트 & 소설 • 💭 자연어 프롬프트 (Natural Language Prompts) • 🖼️ 참조 이미지 (Reference Images) • 🎨 스타일 지침 (Style Directives) • 🧩 설정 (Configs) |
||
🧭 중앙 오케스트레이션 (CENTRAL ORCHESTRATION) 에이전트 스케줄링 (Agent Scheduling) • 단계 전환 (Stage Transitions) • 리소스 관리 (Resource Management) • 재시도/폴백 로직 (Retry/Fallback Logic) |
||
🧾 스크립트 이해 (SCRIPT UNDERSTANDING) 캐릭터/환경 추출 (Character/Environment Extraction) • 장면 경계 (Scene Boundaries) • 스타일 의도 (Style Intent) |
🎥 장면 및 샷 계획 (SCENE & SHOT PLANNING) 스토리보드 단계 (Storyboard Steps) • 샷 리스트 (Shot List) • 키 프레임 및 비트 (Key Frames & Beats) |
|
🧪 시각적 자산 계획 (VISUAL ASSET PLANNING) 참조 이미지 선택 (Reference Image Selection) • 룩/스타일 가이드 (Look/Style Guidance) • 프롬프트 컨디셔닝 (Prompt Conditioning) |
||
🗂️ 자산 인덱싱 (ASSET INDEXING) 프레임/참조 카탈로그 (Frames/Refs Catalog) • 임베딩 (Embeddings) • 재사용을 위한 검색 (Retrieval for Reuse) |
♻️ 일관성 및 연속성 (CONSISTENCY & CONTINUITY) 캐릭터/환경 추적 (Character/Environment Tracking) • 참조 매칭 (Ref Matching) • 시간적 일관성 (Temporal Coherence) |
|
✂️ 시각적 합성 및 조립 (VISUAL SYNTHESIS & ASSEMBLY) 이미지 생성 (Image Generation) • 최적 프레임 선택 (Best-Frame Selection) • 첫/마지막 프레임→비디오 (First/Last-Frame→Video) • 컷 및 타임라인 조립 (Cut & Timeline Assembly) |
||
🚀 출력 계층 (OUTPUT LAYER) 🖼️ 프레임 (Frames) • 🎞️ 클립 및 최종 비디오 (Clips & Final Videos) • 📜 로그 (Logs) • 📦 작업 디렉토리 결과물 (Working Directory Artifacts) |

OS: Linux, Windows

환경 관리를 위해 uv를 사용합니다. uv 설치에 대해서는 https://docs.astral.sh/uv/getting-started/installation/ 을 참조하십시오.

git clone https://github.com/HKUDS/ViMax.git
cd ViMax
uv sync

main_idea2video.py는 아이디어를 비디오로 변환하는 데 사용됩니다. 아래에 표시된 것처럼 채팅 모델(chat model), 이미지 생성기(image generator), 비디오 생성기(video generator)의 세 부분을 포함하여 configs/idea2video.yaml 파일에 모델 및 API 키 정보를 구성해야 합니다.

chat_model:
init_args:
model: google/gemini-2.5-flash-lite-preview-09-2025
...

그런 다음, main_idea2video.py에 간단하면서도 사려 깊은 아이디어와 그에 상응하는 창의적 요구 사항을 제공합니다.

idea = \
"""
If a cat and a dog are best friends, what would happen when they meet a new cat?
...

MiniMax 모델은 대안적인 채팅 모델 제공자(chat model provider)로 사용될 수 있습니다. MiniMax는 MiniMax-M2.7 (1M 컨텍스트 창) 및 MiniMax-M2.5 (204K 컨텍스트)와 같은 모델에 대해 OpenAI 호환 API 액세스를 제공합니다.

설정(config)에서 간단히 model_provider: minimax를 설정하면 기본 URL(base URL)이 자동으로 해결됩니다:

chat_model:
init_args:
model: MiniMax-M2.7
...

또는 API 키를 환경 변수(environment variable)로 내보내고 api_key를 비워두세요:

export MINIMAX_API_KEY=<YOUR_KEY>

전체 예시는 configs/idea2video_minimax.yaml 및 configs/script2video_minimax.yaml을 참조하십시오.

모델	컨텍스트 (Context)	비고
MiniMax-M2.7	1M 토큰	최신 버전, 권장
...

main_script2video.py는 특정 스크립트를 기반으로 비디오를 생성합니다. 마찬가지로 configs/script2video.yaml 파일에 API 설정을 구성해야 합니다. 그런 다음, 아래와 같이 main_script2video.py에 장면 스크립트(scene script)와 그에 상응하는 창의적 요구사항(creative requirements)을 제공하십시오.

script = \
"""
EXT. SCHOOL GYM - DAY
...

🌟 이 프로젝트가 도움이 되었다면, Star를 눌러주세요!

❤️ ViMax ✨를 방문해 주셔서 감사합니다!*

Insights