포괄적인 비디오 인텔리전스: 이해, 편집 및 생성을 위한 올인원 프레임워크
요약
VideoAgent는 비디오 이해, 편집, 생성을 통합한 멀티모달 에이전트 프레임워크입니다. 사용자의 자연어 명령을 분석하여 자율적으로 도구를 사용하고 워크플로우를 계획함으로써 복잡한 비디오 제작 과정을 자동화합니다.
핵심 포인트
- 의도 분석을 통해 명시적/암시적 하위 의도를 모두 포착
- 그래프 기반 워크플로우를 통한 자율적 도구 사용 및 계획
- 비디오 이해, 클립 편집, 창의적 리메이크를 아우르는 올인원 기능
- 자연어 대화만으로 복잡한 비디오 상호작용 및 제작 가능

🌟 포괄적인 비디오 인텔리전스 (Comprehensive Video Intelligence): 이해, 편집 및 생성을 위한 올인원 프레임워크
이 영상에서 우리는 VideoAgent를 사용하여 다음과 같은 작업을 수행하는 방법을 보여줍니다:
- 사용자의 요구사항을 명확하게 표현
- 의도 분석 (Intent analysis) 및 자율적인 도구 사용 및 계획 (Planning) 달성
- 상세한 워크플로우 (Workflow)를 포함한 멀티모달 (Multi-modal) 제품 생성
- 비디오 개요의 완전 자동 생성
🧠 - 비디오 콘텐츠 이해 (Understanding Video Content)
고급 멀티모달 (Multi-modal) 지능 역량을 통해 비디오 미디어로부터 심층적인 분석, 요약 및 통찰력 추출을 가능하게 합니다.
✂️ - 비디오 클립 편집 (Editing Video Clips)
원활한 워크플로우 (Workflow) 통합을 통해 콘텐츠를 조립, 클리핑 및 재구성할 수 있는 직관적인 도구를 제공합니다.
🎨 - 창의적인 비디오 리메이크 (Remaking Creative Videos)
생성형 기술 (Generative technologies)을 활용하여 AI 기반의 창의적 지원을 통해 새롭고 상상력 풍부한 비디오 콘텐츠를 제작합니다.
🔧 - 멀티모달 에이전트 프레임워크 (Multi-Modal Agentic Framework)
향상된 성능을 위해 여러 AI 모달리티 (Modalities)를 결합한 통합 프레임워크를 통해 포괄적인 비디오 인텔리전스를 제공합니다.
🚀 - 원활한 자연어 경험 (Seamless Natural Language Experience)
순수한 대화형 AI를 통해 비디오 상호작용과 제작을 변혁합니다. 복잡한 인터페이스나 기술적 전문 지식은 필요하지 않으며, VideoAgent와의 자연스러운 대화만 있으면 됩니다.
graph TB
A[🎬 VideoAgent Framework] --> B[🧠 Video Understanding & Summarization]
A --> C[✂️ Video Editing]
...
| VideoAgent | Director | Funclip | NarratoAI | NotebookLM | |
|---|---|---|---|---|---|
| 비트 동기화 편집 (Beat-synced Edits) | ✅ | ✅ | ✅ | — | — |
| ... | |||||
| 🧠 사용 용이성 | |||||
| 🚀 무한한 창의성 | |||||
| 🎨 고품질 | |||||
| --- | --- | --- | --- | --- | |
| 원프롬프트 비디오 생성 (One-Prompt Video Creation) | 모든 아이디어로부터 생성 | 인간 수준의 비디오 제작 | |||
| 당신의 아이디어를 전문적인 비디오로 변환 | 당신만의 독특한 아이디어를 위한 워크플로우 생성 | 전문적인 표준을 충족하는 비디오 제공 |
우리의 시스템은 자동화된 비디오 프로세싱을 위한 세 가지 핵심 혁신을 소개합니다. **의도 분석 (Intent Analysis)**은 사용자 명령을 넘어 명시적 및 암시적 하위 의도 (sub-intents)를 모두 포착합니다. **자율적 도구 사용 및 계획 (Autonomous Tool Use & Planning)**은 자동화된 에이전트 오케스트레이션 (agent orchestration)을 위해 적응형 피드백 루프 (adaptive feedback loops)를 갖춘 그래프 기반 워크플로우 생성을 채택합니다. **멀티모달 이해 (Multi-Modal Understanding)**는 검색 성능 향상을 위해 원시 입력 (raw input)을 의미론적으로 정렬된 시각적 쿼리 (visual queries)로 변환합니다.
🔍 VideoAgent는 지능적으로
사용자 지침을 명시적 및 암시적 하위 의도 (sub-intents)로 분해하여, 사용자가 명시적으로 언급하지 않을 수 있는 미묘한 요구 사항을 포착합니다. 이 고급 파싱 (parsing) 기술은 표면적인 명령을 넘어 사용자 목표에 대한 **포괄적인 이해 (comprehensive understanding)**를 보장합니다. -
🎯
**의도-에이전트 매핑 메커니즘 (intent-to-agent mapping mechanism)**을 통해, 시스템은 멀티 에이전트 프레임워크 내에서 정확히 어떤 기능이 필요한지 식별합니다. 이러한 타겟팅된 접근 방식은 **최적의 작업 실행 (optimal task execution)**을 위해 불필요한 계산 오버헤드를 피하면서 관련 시스템 구성 요소의 **효율적인 활성화 (efficient activation)**를 가능하게 합니다.
⚙️
**그래프 기반 프레임워크 (A graph-powered framework)**는 사용자 의도를 **실행 가능한 워크플로우 (executable workflows)**로 자동 변환합니다. 시스템은 적절한 에이전트를 동적으로 선택하고 최적의 실행 시퀀스를 구축합니다. 노드 (Nodes)는 도구의 기능을 나타내며, 엣지 (edges)는 복잡한 비디오 작업을 위한 워크플로우 연결을 정의합니다. -
🔄 적응형 피드백 루프 (Adaptive feedback loops)는 **2단계 자기 평가 (two-step self-evaluation)**를 통해 계획 프로세스를 지속적으로 개선합니다. 이는 견고한 **자동화된 의사 결정 (automated decision-making)**과 원활한 실행을 보장합니다. 시스템은 전체 작업 라이프사이클 동안 **자기 수정 (self-corrects)**을 수행하고 성능을 최적화합니다.
📋
**스토리보드 에이전트 (The Storyboard Agent)**는 원시 사용자 입력을 **최적화된 시각적 쿼리 (optimized visual queries)**로 변환합니다. 이 에이전트는 먼저 사전 캡션이 지정된 비디오 자료 뱅크를 분석하여 사용 가능한 리소스를 파악합니다. 이러한 기초 분석을 통해 시스템은 쿼리 처리를 위해 어떤 콘텐츠에 접근할 수 있는지 정확히 알 수 있습니다. -
💡 그 후 에이전트는
사용자 입력을 분해하여 시각적 및 의미적으로 정렬된 **세밀한 하위 쿼리 (fine-grained sub-queries)**로 변환합니다. 이러한 정교한 분해는 사용자의 의도를 데이터베이스 내 가장 관련 있는 시각적 콘텐츠와 매칭함으로써 **향상된 비디오 검색 (enhanced video retrieval)**을 가능하게 합니다.
우리는 주요 과제들을 해결하는 데 있어 VideoAgent의 효과를 검증하기 위해 여러 차원에 걸쳐 광범위한 실험을 수행합니다.
자동 워크플로우 구축을 통한 VideoAgent의 **무한한 창의성 (boundless creativity)**을 평가하기 위해, 세 가지 백본 모델 (backbone models)에 걸쳐 광범위하게 적용 가능한 5개의 에이전트를 비교했습니다. 연구 결과, VideoAgent는 오디오 및 비디오 데이터셋에서 다른 베이스라인 (baselines) 모델들을 크게 능가하는 성능을 보였으며, 그래프 구조 기반의 가이드와 전용 자기 평가 피드백 (self-evaluation feedback)에 의해 구동되는 자기 성찰 (self-reflection)을 통해 **창의적인 워크플로우 생성 능력 (creative workflow generation capabilities)**을 입증했습니다. 또한, 다른 베이스라인 방법들이 서로 다른 백본에 따라 변동을 보이는 것과 달리, VideoAgent는 GPT-4o 및 Deepseek-v3와 비교했을 때 Claude 3.7 백본 하에서 더욱 우수하고 안정적인 **창의적 성능 (creative performance)**을 보여줍니다. 이는 VideoAgent가 다양한 사용자 요구 사항에 적응하는 다양하고 효과적인 워크플로우를 자동으로 구축함으로써 **무한한 창의성을 발휘 (unleash boundless creativity)**할 수 있는 능력을 강조하며, 더 유능한 LLM일수록 더 깊은 이해를 달성하고 복잡한 그래프 기반 작업에 대해 더 강력한 창의적 솔루션을 제공한다는 것을 보여줍니다.
우리의 멀티모달 이해 (multimodal understanding) 능력을 검증하기 위해, 섞인 캡션 쿼리 (shuffled caption queries)를 사용하여 텍스트-비디오 검색 (text-to-video retrieval) 실험을 수행했습니다. 평가는 모델이 상응하는 시각적 콘텐츠를 검색하는 능력을 측정하기 위해 세 가지 지표를 사용합니다: Recall은 검색된 클립의 중간 지점과 정답 (ground truth) 위치를 비교하여 섞인 비디오 클립을 올바르게 재정렬하는 모델의 능력을 측정합니다; Embedding Matching 기반 점수는 생성된 비디오와 상위 수준의 캡션 요약 간의 거친 수준의 정렬 (coarse-grained alignment)을 평가합니다; 그리고 Intersection over Union (IoU)은 검색된 구간과 정답 구간 사이의 시간적 중첩 비율을 전체 범위로 계산하여 클립 수준에서의 시간적 정렬 정확도를 정량화합니다. 실험 결과는 우리의 접근 방식이 더 정확한 비디오 세그먼트를 검색할 수 있음을 보여주며, 이를 통해 우리의 정밀한 멀티모달 이해 능력을 입증합니다.
우리는 성찰 (reflection) 라운드가 성능에 미치는 영향을 분석함으로써 VideoAgent의 반복적 개선 (iterative refinement) 능력을 조사합니다. 세 가지 LLM 백본 (backbone)을 사용하여 두 개의 데이터셋에 걸친 워크플로 구성 (workflow composition)에 대한 포괄적인 하이퍼파라미터 실험을 통해, 우리는 VideoAgent의 **괄목할 만한 자기 개선 능력 (notable self-improvement ability)**을 입증합니다. 결과에 따르면 초기 반복은 베이스라인 결과를 생성하지만, 우리 시스템의 **적응형 성찰 메커니즘 (adaptive reflection mechanism)**은 후속 라운드가 진행될수록 상당한 성능 향상을 이끌어냅니다. VideoAgent는 테스트된 모든 구성에서 0.95의 일관된 워크플로 구성 성공률을 달성하였으며, 이는 기반이 되는 LLM 백본에 관계없이 **강력한 자기 수정 능력 (robust self-correction capabilities)**과 **신뢰할 수 있는 고품질 출력 (reliable high-quality output)**을 보여줍니다.
GPU Memory: 8GB
OS: Linux, Windows
git clone https://github.com/HKUDS/VideoAgent.git
conda create --name videoagent python=3.10
conda activate videoagent
...
# Download CosyVoice
cd tools/CosyVoice
huggingface-cli download PillowTa1k/CosyVoice --local-dir pretrained_models
fish-speech 다운로드
cd tools/fish-speech
huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5
seed-vc 다운로드
cd tools/seed-vc
huggingface-cli download PillowTa1k/seed-vc --local-dir checkpoints
DiffSinger 다운로드
cd tools/DiffSinger
huggingface-cli download PillowTa1k/DiffSinger --local-dir checkpoints
Whisper 다운로드
cd tools
huggingface-cli download openai/whisper-large-v3-turbo --local-dir whisper-large-v3-turbo
git-lfs가 설치되어 있는지 확인하세요 (https://git-lfs.com)
git lfs install
ImageBind 다운로드
cd tools
mkdir .checkpoints
...
🌟 사용자의 편의를 위해 여러 모델이 준비되어 있습니다. 프로젝트와 관련된 모델만 다운로드하는 것이 좋을 수 있습니다.
| 기능 유형 | 비디오 데모 | 필수 모델 |
|---|---|---|
| Cross Talk | English Stand-up Comedy to Chinese Crosstalk | CosyVoice, Whisper, ImageBind |
| ... |
VideoAgent\environment\config\config.yml
적용 가능한 시나리오 및 LLM 설정
Agentic Graph Router를 구동하는 데 Claude가 필요합니다.
...
이제 설정이 완료되었으므로, 다음 지침을 실행하세요:
python main.py
콘솔에 출력됩니다:
...
현재의 LLM 선택은 각 기능에 최적화되어 있습니다.
필요한 경우 VideoAgent\environment\config\llm.py에서 모델 이름을 조정할 수도 있습니다.
추가 데모 사용 상세 정보는 다음을 참조하세요:
👉 Demos Documentation
더 재미있는 비디오는 저희 Bilibili 채널에서 확인하실 수 있습니다:
👉 Bilibili Homepage
엔터테이닝한 콘텐츠를 더 많이 즐겨보세요! 😊
참고: 모든 비디오는 연구 및 시연 목적으로만 사용됩니다. 오디오 및 비주얼 자산은 인터넷에서 가져온 것입니다. 만약 어떤 콘텐츠가 귀하의 지적 재산권을 침해한다고 생각하시면 저희에게 연락 주십시오.
저희는 VideoAgent를 가능하게 해준 수많은 개인과 조직에 깊은 감사를 표합니다. 이 프레임워크는 거인들의 어깨 위에 서 있으며, 오픈 소스 커뮤니티의 집단 지성과 전 세계 연구자들의 획기적인 연구 성과로부터 혜택을 받았습니다.
저희의 작업은 다양한 플랫폼의 콘텐츠 제작자들의 창의적인 기여를 통해 크게 풍성해졌습니다. 다음 분들께 감사를 전합니다:
- 🎬
콘텐츠 제작자 (Content Creators): 테스트 및 시연에 사용된 원본 비디오 콘텐츠의 배후에 있는 재능 있는 제작자들 - 🎭
코미디 아티스트 (Comedy Artists): 저희의 교차 문화적 적응 (cross-cultural adaptations)에 영감을 준 분들 - 🎥
영화 제작자 (Filmmakers): 저희 데모에 등장하는 영화 및 TV 쇼의 제작 팀
** ⚠️ 주의**: 저희 데모에 사용된 모든 콘텐츠는 연구 목적으로만 사용되었습니다. 저희는 모든 콘텐츠 제작자의 지적 재산권을 깊이 존중하며, 콘텐츠 사용과 관련된 모든 우려 사항이나 피드백을 환영합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기