🌟 포괄적인 비디오 인텔리전스 (Comprehensive Video Intelligence): 이해, 편집 및 생성을 위한 올인원 프레임워크

이 영상에서 우리는 VideoAgent를 사용하여 다음과 같은 작업을 수행하는 방법을 보여줍니다:

사용자의 요구사항을 명확하게 표현
의도 분석 (Intent analysis) 및 자율적인 도구 사용 및 계획 (Planning) 달성
상세한 워크플로우 (Workflow)를 포함한 멀티모달 (Multi-modal) 제품 생성
비디오 개요의 완전 자동 생성

🧠 - 비디오 콘텐츠 이해 (Understanding Video Content)

고급 멀티모달 (Multi-modal) 지능 역량을 통해 비디오 미디어로부터 심층적인 분석, 요약 및 통찰력 추출을 가능하게 합니다.

✂️ - 비디오 클립 편집 (Editing Video Clips)

원활한 워크플로우 (Workflow) 통합을 통해 콘텐츠를 조립, 클리핑 및 재구성할 수 있는 직관적인 도구를 제공합니다.

🎨 - 창의적인 비디오 리메이크 (Remaking Creative Videos)

생성형 기술 (Generative technologies)을 활용하여 AI 기반의 창의적 지원을 통해 새롭고 상상력 풍부한 비디오 콘텐츠를 제작합니다.

🔧 - 멀티모달 에이전트 프레임워크 (Multi-Modal Agentic Framework)

향상된 성능을 위해 여러 AI 모달리티 (Modalities)를 결합한 통합 프레임워크를 통해 포괄적인 비디오 인텔리전스를 제공합니다.

🚀 - 원활한 자연어 경험 (Seamless Natural Language Experience)

순수한 대화형 AI를 통해 비디오 상호작용과 제작을 변혁합니다. 복잡한 인터페이스나 기술적 전문 지식은 필요하지 않으며, VideoAgent와의 자연스러운 대화만 있으면 됩니다.

graph TB
A[🎬 VideoAgent Framework] --> B[🧠 Video Understanding & Summarization]
A --> C[✂️ Video Editing]
...

VideoAgent	Director	Funclip	NarratoAI	NotebookLM
비트 동기화 편집 (Beat-synced Edits)	✅	✅	✅	—	—
...
🧠 사용 용이성
🚀 무한한 창의성
🎨 고품질
---	---	---	---	---
원프롬프트 비디오 생성 (One-Prompt Video Creation)	모든 아이디어로부터 생성	인간 수준의 비디오 제작
당신의 아이디어를 전문적인 비디오로 변환	당신만의 독특한 아이디어를 위한 워크플로우 생성	전문적인 표준을 충족하는 비디오 제공

우리의 시스템은 자동화된 비디오 프로세싱을 위한 세 가지 핵심 혁신을 소개합니다. **의도 분석 (Intent Analysis)**은 사용자 명령을 넘어 명시적 및 암시적 하위 의도 (sub-intents)를 모두 포착합니다. **자율적 도구 사용 및 계획 (Autonomous Tool Use & Planning)**은 자동화된 에이전트 오케스트레이션 (agent orchestration)을 위해 적응형 피드백 루프 (adaptive feedback loops)를 갖춘 그래프 기반 워크플로우 생성을 채택합니다. **멀티모달 이해 (Multi-Modal Understanding)**는 검색 성능 향상을 위해 원시 입력 (raw input)을 의미론적으로 정렬된 시각적 쿼리 (visual queries)로 변환합니다.

🔍 VideoAgent는 지능적으로

사용자 지침을 명시적 및 암시적 하위 의도 (sub-intents)로 분해하여, 사용자가 명시적으로 언급하지 않을 수 있는 미묘한 요구 사항을 포착합니다. 이 고급 파싱 (parsing) 기술은 표면적인 명령을 넘어 사용자 목표에 대한 **포괄적인 이해 (comprehensive understanding)**를 보장합니다. -
🎯

**의도-에이전트 매핑 메커니즘 (intent-to-agent mapping mechanism)**을 통해, 시스템은 멀티 에이전트 프레임워크 내에서 정확히 어떤 기능이 필요한지 식별합니다. 이러한 타겟팅된 접근 방식은 **최적의 작업 실행 (optimal task execution)**을 위해 불필요한 계산 오버헤드를 피하면서 관련 시스템 구성 요소의 **효율적인 활성화 (efficient activation)**를 가능하게 합니다.

⚙️

**그래프 기반 프레임워크 (A graph-powered framework)**는 사용자 의도를 **실행 가능한 워크플로우 (executable workflows)**로 자동 변환합니다. 시스템은 적절한 에이전트를 동적으로 선택하고 최적의 실행 시퀀스를 구축합니다. 노드 (Nodes)는 도구의 기능을 나타내며, 엣지 (edges)는 복잡한 비디오 작업을 위한 워크플로우 연결을 정의합니다. -
🔄 적응형 피드백 루프 (Adaptive feedback loops)는 **2단계 자기 평가 (two-step self-evaluation)**를 통해 계획 프로세스를 지속적으로 개선합니다. 이는 견고한 **자동화된 의사 결정 (automated decision-making)**과 원활한 실행을 보장합니다. 시스템은 전체 작업 라이프사이클 동안 **자기 수정 (self-corrects)**을 수행하고 성능을 최적화합니다.

📋

**스토리보드 에이전트 (The Storyboard Agent)**는 원시 사용자 입력을 **최적화된 시각적 쿼리 (optimized visual queries)**로 변환합니다. 이 에이전트는 먼저 사전 캡션이 지정된 비디오 자료 뱅크를 분석하여 사용 가능한 리소스를 파악합니다. 이러한 기초 분석을 통해 시스템은 쿼리 처리를 위해 어떤 콘텐츠에 접근할 수 있는지 정확히 알 수 있습니다. -
💡 그 후 에이전트는

사용자 입력을 분해하여 시각적 및 의미적으로 정렬된 **세밀한 하위 쿼리 (fine-grained sub-queries)**로 변환합니다. 이러한 정교한 분해는 사용자의 의도를 데이터베이스 내 가장 관련 있는 시각적 콘텐츠와 매칭함으로써 **향상된 비디오 검색 (enhanced video retrieval)**을 가능하게 합니다.

우리는 주요 과제들을 해결하는 데 있어 VideoAgent의 효과를 검증하기 위해 여러 차원에 걸쳐 광범위한 실험을 수행합니다.

자동 워크플로우 구축을 통한 VideoAgent의 **무한한 창의성 (boundless creativity)**을 평가하기 위해, 세 가지 백본 모델 (backbone models)에 걸쳐 광범위하게 적용 가능한 5개의 에이전트를 비교했습니다. 연구 결과, VideoAgent는 오디오 및 비디오 데이터셋에서 다른 베이스라인 (baselines) 모델들을 크게 능가하는 성능을 보였으며, 그래프 구조 기반의 가이드와 전용 자기 평가 피드백 (self-evaluation feedback)에 의해 구동되는 자기 성찰 (self-reflection)을 통해 **창의적인 워크플로우 생성 능력 (creative workflow generation capabilities)**을 입증했습니다. 또한, 다른 베이스라인 방법들이 서로 다른 백본에 따라 변동을 보이는 것과 달리, VideoAgent는 GPT-4o 및 Deepseek-v3와 비교했을 때 Claude 3.7 백본 하에서 더욱 우수하고 안정적인 **창의적 성능 (creative performance)**을 보여줍니다. 이는 VideoAgent가 다양한 사용자 요구 사항에 적응하는 다양하고 효과적인 워크플로우를 자동으로 구축함으로써 **무한한 창의성을 발휘 (unleash boundless creativity)**할 수 있는 능력을 강조하며, 더 유능한 LLM일수록 더 깊은 이해를 달성하고 복잡한 그래프 기반 작업에 대해 더 강력한 창의적 솔루션을 제공한다는 것을 보여줍니다.

우리의 멀티모달 이해 (multimodal understanding) 능력을 검증하기 위해, 섞인 캡션 쿼리 (shuffled caption queries)를 사용하여 텍스트-비디오 검색 (text-to-video retrieval) 실험을 수행했습니다. 평가는 모델이 상응하는 시각적 콘텐츠를 검색하는 능력을 측정하기 위해 세 가지 지표를 사용합니다: Recall은 검색된 클립의 중간 지점과 정답 (ground truth) 위치를 비교하여 섞인 비디오 클립을 올바르게 재정렬하는 모델의 능력을 측정합니다; Embedding Matching 기반 점수는 생성된 비디오와 상위 수준의 캡션 요약 간의 거친 수준의 정렬 (coarse-grained alignment)을 평가합니다; 그리고 Intersection over Union (IoU)은 검색된 구간과 정답 구간 사이의 시간적 중첩 비율을 전체 범위로 계산하여 클립 수준에서의 시간적 정렬 정확도를 정량화합니다. 실험 결과는 우리의 접근 방식이 더 정확한 비디오 세그먼트를 검색할 수 있음을 보여주며, 이를 통해 우리의 정밀한 멀티모달 이해 능력을 입증합니다.

우리는 성찰 (reflection) 라운드가 성능에 미치는 영향을 분석함으로써 VideoAgent의 반복적 개선 (iterative refinement) 능력을 조사합니다. 세 가지 LLM 백본 (backbone)을 사용하여 두 개의 데이터셋에 걸친 워크플로 구성 (workflow composition)에 대한 포괄적인 하이퍼파라미터 실험을 통해, 우리는 VideoAgent의 **괄목할 만한 자기 개선 능력 (notable self-improvement ability)**을 입증합니다. 결과에 따르면 초기 반복은 베이스라인 결과를 생성하지만, 우리 시스템의 **적응형 성찰 메커니즘 (adaptive reflection mechanism)**은 후속 라운드가 진행될수록 상당한 성능 향상을 이끌어냅니다. VideoAgent는 테스트된 모든 구성에서 0.95의 일관된 워크플로 구성 성공률을 달성하였으며, 이는 기반이 되는 LLM 백본에 관계없이 **강력한 자기 수정 능력 (robust self-correction capabilities)**과 **신뢰할 수 있는 고품질 출력 (reliable high-quality output)**을 보여줍니다.

GPU Memory: 8GB
OS: Linux, Windows

git clone https://github.com/HKUDS/VideoAgent.git
conda create --name videoagent python=3.10
conda activate videoagent
...

# Download CosyVoice
cd tools/CosyVoice
huggingface-cli download PillowTa1k/CosyVoice --local-dir pretrained_models

fish-speech 다운로드

cd tools/fish-speech
huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5

seed-vc 다운로드

cd tools/seed-vc
huggingface-cli download PillowTa1k/seed-vc --local-dir checkpoints

DiffSinger 다운로드

cd tools/DiffSinger
huggingface-cli download PillowTa1k/DiffSinger --local-dir checkpoints

Whisper 다운로드

cd tools
huggingface-cli download openai/whisper-large-v3-turbo --local-dir whisper-large-v3-turbo

git-lfs가 설치되어 있는지 확인하세요 (https://git-lfs.com)

git lfs install

ImageBind 다운로드

cd tools
mkdir .checkpoints
...

🌟 사용자의 편의를 위해 여러 모델이 준비되어 있습니다. 프로젝트와 관련된 모델만 다운로드하는 것이 좋을 수 있습니다.

기능 유형	비디오 데모	필수 모델
Cross Talk	English Stand-up Comedy to Chinese Crosstalk	CosyVoice, Whisper, ImageBind
...

VideoAgent\environment\config\config.yml

적용 가능한 시나리오 및 LLM 설정

Agentic Graph Router를 구동하는 데 Claude가 필요합니다.

...

이제 설정이 완료되었으므로, 다음 지침을 실행하세요:

python main.py

콘솔에 출력됩니다:

...

현재의 LLM 선택은 각 기능에 최적화되어 있습니다.

필요한 경우 VideoAgent\environment\config\llm.py에서 모델 이름을 조정할 수도 있습니다.

추가 데모 사용 상세 정보는 다음을 참조하세요:

👉 Demos Documentation

더 재미있는 비디오는 저희 Bilibili 채널에서 확인하실 수 있습니다:

👉 Bilibili Homepage

엔터테이닝한 콘텐츠를 더 많이 즐겨보세요! 😊

참고: 모든 비디오는 연구 및 시연 목적으로만 사용됩니다. 오디오 및 비주얼 자산은 인터넷에서 가져온 것입니다. 만약 어떤 콘텐츠가 귀하의 지적 재산권을 침해한다고 생각하시면 저희에게 연락 주십시오.

저희는 VideoAgent를 가능하게 해준 수많은 개인과 조직에 깊은 감사를 표합니다. 이 프레임워크는 거인들의 어깨 위에 서 있으며, 오픈 소스 커뮤니티의 집단 지성과 전 세계 연구자들의 획기적인 연구 성과로부터 혜택을 받았습니다.

저희의 작업은 다양한 플랫폼의 콘텐츠 제작자들의 창의적인 기여를 통해 크게 풍성해졌습니다. 다음 분들께 감사를 전합니다:

🎬
콘텐츠 제작자 (Content Creators): 테스트 및 시연에 사용된 원본 비디오 콘텐츠의 배후에 있는 재능 있는 제작자들 - 🎭
코미디 아티스트 (Comedy Artists): 저희의 교차 문화적 적응 (cross-cultural adaptations)에 영감을 준 분들 - 🎥
영화 제작자 (Filmmakers): 저희 데모에 등장하는 영화 및 TV 쇼의 제작 팀

** ⚠️ 주의**: 저희 데모에 사용된 모든 콘텐츠는 연구 목적으로만 사용되었습니다. 저희는 모든 콘텐츠 제작자의 지적 재산권을 깊이 존중하며, 콘텐츠 사용과 관련된 모든 우려 사항이나 피드백을 환영합니다.

Insights

포괄적인 비디오 인텔리전스: 이해, 편집 및 생성을 위한 올인원 프레임워크

요약

핵심 포인트