arXiv논문2026. 05. 22. 11:20

Bernini: 비디오 확산 (Video Diffusion)을 위한 잠재 의미론적 계획 (Latent Semantic Planning)

요약

Bernini는 MLLM의 의미론적 계획 능력과 확산 모델의 렌더링 능력을 결합한 비디오 생성 및 편집 프레임워크입니다. MLLM이 ViT 임베딩 공간에서 목표 표현을 예측하면, DiT 기반 렌더러가 이를 바탕으로 픽셀을 합성하는 구조를 가집니다.

핵심 포인트

MLLM을 플래너로, 확산 모델을 렌더러로 활용하는 통합 구조
의미론적 인터페이스를 통해 두 구성 요소의 개별 학습 및 효율적 공동 학습 가능
SA-3D RoPE 도입을 통한 다중 시각적 입력 처리 능력 향상
Chain-of-Thought 추론을 통합하여 생성 이해도 강화
비디오 생성 및 편집 벤치마크에서 SOTA 성능 달성

멀티모달 대규모 언어 모델 (MLLMs)과 확산 모델 (diffusion models)은 각각 놀라운 성숙도에 도달했습니다. MLLMs는 강력한 의미론적 근거 (semantic grounding)를 바탕으로 이질적인 멀티모달 입력에 대한 추론에 탁월하며, 확산 모델은 사진과 같은 충실도로 이미지와 비디오를 합성합니다. 우리는 이 두 계열이 단순한 역할 분담을 통해 통합될 수 있다고 주장합니다. 즉, MLLMs는 의미론적 계획 (semantic planning)을 수행하고, 확산 모델은 고수준의 의미론적 가이드 (semantic guidance)와 저수준의 시각적 특징 (visual features)으로부터 픽셀을 렌더링합니다. 이러한 아이디어를 바탕으로, 우리는 비디오 생성 및 편집을 위한 통합 프레임워크인 Bernini를 제안합니다. MLLM 기반의 플래너 (planner)는 ViT 임베딩 공간 (embedding space)에서 직접 목표 의미론적 표현 (target semantic representation)을 예측하며, DiT 기반의 렌더러 (renderer)는 이 계획을 조건으로 하여 픽셀을 합성합니다. 이때 텍스트 특징 (text features)이 보강되며, 편집의 경우 세부 사항 보존을 위해 소스 VAE 특징 (source VAE features)이 사용됩니다. 의미론 (semantics)이 인터페이스 역할을 하기 때문에, 플래너와 렌더러는 별도로 학습될 수 있으며 가볍게 공동 학습 (co-trained)될 수 있습니다. 이를 통해 두 구성 요소의 사전 학습된 강점을 보존하면서도 학습 효율성을 유지할 수 있습니다. 다중 시각적 입력을 더 잘 처리하기 위해, 우리는 세그먼트 인식 3D 회전 위치 임베딩 (Segment-Aware 3D Rotary Positional Embedding, SA-3D RoPE)을 도입하였으며, 이해도를 생성으로 더 잘 전달하기 위해 플래너에 사고의 사슬 (chain-of-thought) 추론을 추가로 통합했습니다. Bernini는 광범위한 비디오 생성 및 편집 벤치마크에서 최첨단 (state-of-the-art) 성능을 달성하였으며, MLLM의 사전 학습된 이해도가 까다로운 편집 작업에서 강력한 일반화 (generalization) 능력으로 이어졌습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Bernini: 비디오 확산 (Video Diffusion)을 위한 잠재 의미론적 계획 (Latent Semantic Planning)

요약

핵심 포인트

댓글