본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 29. 04:01

Paris 2.0, 아무것도 공유하지 않는 분산 GPU 풀을 통해 비디오 생성 모델 학습

요약

Paris 2.0은 데이터와 파라미터를 공유하지 않는 분산 GPU 풀을 통해 비디오 생성 모델을 학습하는 데 성공했습니다. 중앙 집중식 학습의 가설을 깨고 동일 예산 대비 성능을 2배 향상시키며 구조적 변화의 가능성을 제시했습니다.

핵심 포인트

  • 분산 GPU 풀을 통한 격리된 모델 학습 방식 도입
  • 중앙 집중식 학습 대비 FVD 성능 대폭 개선
  • 거대 GPU 클러스터 없이도 프런티어 모델 학습 가능성 시사
  • 비디오 생성 모델 분야의 새로운 학습 패러다임 제시

Paris 2.0은 아무것도 공유하지 않는 분산된 GPU 풀(distributed pool)을 통해 비디오 생성 모델을 학습했습니다. 그래디언트(gradients), 파라미터(parameters), 활성화 값(activations)도 공유하지 않았습니다. 각 전문 모델(specialist model)은 자신만의 데이터 슬라이스(data slice) 위에서 완전히 격리된 상태로 학습되었습니다.

Bagel의 목표는 단일 모델(monolithic) 베이스라인과 일치하는 것이었습니다. 하지만 그들은 오히려 2배 더 뛰어난 성능을 보여주었습니다. 동일한 데이터 및 연산 예산(compute budget) 하에서 FVD(Frechet Video Distance)가 561에서 279로 감소했습니다.

이러한 결과는 존재해서는 안 되는 결과입니다. 이 분야의 모든 가설은 통합된 클러스터(unified cluster)에서의 중앙 집중식 학습(centralized training)이 더 나은 모델을 만들어낸다고 말합니다. Bagel의 DDM은 그렇게 하지 않음으로써 더 나은 모델을 얻어냈습니다.

제가 계속 생각하게 되는 부분은 비용 측면의 영향입니다. 만약 경쟁력 있는 비디오 모델을 학습시키기 위해 하나의 거대한 GPU 클러스터가 필요하지 않다면, 누가 프런티어 모델(frontier models)을 학습시킬 수 있는가에 대한 논의는 완전히 바뀔 것입니다. 점진적인 변화가 아니라, 구조적인 변화가 될 것입니다.

Paris 1.0은 이미지 분야에서 이를 증명했습니다. Paris 2.0은 방금 비디오 분야에서 이를 증명했습니다. 다음은 월드 모델(world models)입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @socialwithaayan (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0