본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 05. 13:49

MLLM을 통한 의미론적 계획과 DiT를 통한 렌더링으로 비디오 생성 및 편집을 하나의 프레임워크로 통합하여 상용 폐쇄형 모델과 경쟁하는

요약

ByteDance가 공개한 Bernini는 MLLM의 의미론적 계획과 DiT 렌더링을 결합하여 비디오 생성 및 편집을 통합한 프레임워크입니다. 상용 폐쇄형 모델과 대등한 성능을 보이며 텍스트/이미지 기반 비디오 작업을 지원합니다.

핵심 포인트

  • MLLM과 DiT를 결합한 단일 비디오 프레임워크
  • 텍스트/이미지 기반 비디오 생성 및 편집 지원
  • 인간 블라인드 테스트에서 상용 모델 수준 성능 입증
  • Anima: 스마트 하드웨어를 위한 로컬 에이전트 OS 공개

MLLM (Multimodal Large Language Model)을 의미론적 계획 (Semantic Planning)에 사용하고 DiT (Diffusion Transformer)를 렌더링에 사용하여, 비디오 생성과 편집을 단일 프레임워크로 통합함으로써 상용 폐쇄형 모델 (Closed-source models)과 경쟁할 수 있는 비디오 편집 효과를 제공합니다.
https://
gitub.com/bytedance/Bern
ini


Bernini는 ByteDance가 오픈 소스로 공개한 비디오 생성 및 편집 프레임워크로, 의미론적 계획 (Semantic planning)을 위해 멀티모달 대규모 모델 (Multimodal large models)을 사용하고 렌더링을 위해 확산 트랜스포머 (Diffusion Transformers)를 사용합니다. 이 프레임워크는 텍스트-비디오 (Text-to-video), 이미지-비디오 (Image-to-video), 비디오 편집 (Video editing), 참조 이미지 가이드 편집 (Reference image-guided editing) 등을 지원합니다. 비디오 편집 측면에서, 인간 블라인드 테스트 (Human blind evaluations) 결과 폐쇄형 상용 모델과 동일한 수준의 성능을 보여줍니다.

홈 하드웨어를 "연결된 장치를 수동적으로 실행하는 단계"에서 "인지, 의사결정 및 학습 능력을 갖춘 에이전트 (Agents)"로 업그레이드하고, 로컬 에이전트 운영체제 (Agent OS)를 통해 이들을 오케스트레이션하십시오.
https://
gitub.com/Fullive-AI/Ani
ma


Anima는 스마트 하드웨어를 위한 오픈 소스 에이전트 운영체제 (Agent OS)로, 로컬에서 실행됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @qingq77 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0