X요약2026. 05. 29. 04:01

Paris 2.0, 아무것도 공유하지 않는 분산 GPU 풀을 통해 비디오 생성 모델 학습

요약

Paris 2.0은 데이터와 파라미터를 공유하지 않는 분산 GPU 풀을 통해 비디오 생성 모델을 학습하는 데 성공했습니다. 중앙 집중식 학습의 가설을 깨고 동일 예산 대비 성능을 2배 향상시키며 구조적 변화의 가능성을 제시했습니다.

핵심 포인트

분산 GPU 풀을 통한 격리된 모델 학습 방식 도입
중앙 집중식 학습 대비 FVD 성능 대폭 개선
거대 GPU 클러스터 없이도 프런티어 모델 학습 가능성 시사
비디오 생성 모델 분야의 새로운 학습 패러다임 제시

Paris 2.0은 아무것도 공유하지 않는 분산된 GPU 풀(distributed pool)을 통해 비디오 생성 모델을 학습했습니다. 그래디언트(gradients), 파라미터(parameters), 활성화 값(activations)도 공유하지 않았습니다. 각 전문 모델(specialist model)은 자신만의 데이터 슬라이스(data slice) 위에서 완전히 격리된 상태로 학습되었습니다.

Bagel의 목표는 단일 모델(monolithic) 베이스라인과 일치하는 것이었습니다. 하지만 그들은 오히려 2배 더 뛰어난 성능을 보여주었습니다. 동일한 데이터 및 연산 예산(compute budget) 하에서 FVD(Frechet Video Distance)가 561에서 279로 감소했습니다.

이러한 결과는 존재해서는 안 되는 결과입니다. 이 분야의 모든 가설은 통합된 클러스터(unified cluster)에서의 중앙 집중식 학습(centralized training)이 더 나은 모델을 만들어낸다고 말합니다. Bagel의 DDM은 그렇게 하지 않음으로써 더 나은 모델을 얻어냈습니다.

제가 계속 생각하게 되는 부분은 비용 측면의 영향입니다. 만약 경쟁력 있는 비디오 모델을 학습시키기 위해 하나의 거대한 GPU 클러스터가 필요하지 않다면, 누가 프런티어 모델(frontier models)을 학습시킬 수 있는가에 대한 논의는 완전히 바뀔 것입니다. 점진적인 변화가 아니라, 구조적인 변화가 될 것입니다.

Paris 1.0은 이미지 분야에서 이를 증명했습니다. Paris 2.0은 방금 비디오 분야에서 이를 증명했습니다. 다음은 월드 모델(world models)입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Paris 2.0, 아무것도 공유하지 않는 분산 GPU 풀을 통해 비디오 생성 모델 학습

요약

핵심 포인트

댓글