arXiv논문2026. 05. 26. 13:38

Paris 2.0: 비디오 생성을 위한 분산형 확산 모델 (Decentralized Diffusion Model)

요약

Paris 2.0은 분산형 연산을 통해 학습된 최초의 비디오 생성 모델입니다. 기존 Paris 1.0의 이미지 생성 기술을 넘어, 분산형 환경에서도 시간적 일관성을 유지하는 비디오 생성을 성공적으로 구현했습니다.

핵심 포인트

최초의 오픈 웨이트 분산형 확산 모델(DDM) 기반 비디오 생성
단일 GPU 클러스터 없이도 고품질 비디오 학습 가능
FVD 지표를 기존 대비 약 2.0배 개선하여 품질 향상
텍스트-비디오 유사도 및 미적 점수 동시 상승

우리는 분산형 연산 (decentralized computation)을 통해 사전 학습된 최초의 비디오 생성 모델인 Paris 2.0을 선보입니다. 이 모델의 학습 레시피는 최초의 오픈 웨이트 (open-weight) 분산형 확산 모델 (Decentralized Diffusion Model, DDM)인 Paris 1.0 (arXiv:2510.03434)을 기반으로 하며, Paris 1.0은 거대한 단일 GPU 클러스터 없이도 이미지 생성을 학습할 수 있음을 보여주었습니다. 그러나 시간적 일관성 (temporally coherent)을 가진 비디오 생성은 분산형 학습 환경에서 미해결 과제로 남아 있었으나, Paris 2.0이 이를 해결합니다. 동일한 데이터와 동일한 총 연산 예산(compute budget) 하에서 학습된 단일 모델 (monolithic model)과 비교했을 때, 저해상도 텍스트-비디오 (text-to-video) 학습에서 Paris 2.0은 Frechet Video Distance (FVD)를 561.04에서 279.01로 약 2.0배 개선하였으며, CLIP 텍스트-비디오 유사도 (text-video similarity)와 미적 점수 (aesthetic score)를 높였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Paris 2.0: 비디오 생성을 위한 분산형 확산 모델 (Decentralized Diffusion Model)

요약

핵심 포인트

댓글