본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 20:41

EverAnimate: 잠재 흐름 복원 (Latent Flow Restoration)을 통한 분 단위 규모의 인간 애니메이션 생성

요약

EverAnimate는 시각적 품질과 캐릭터 정체성을 유지하며 장시간 애니메이션 비디오를 생성하기 위한 효율적인 사후 학습 방법입니다. 기존의 청크 기반 생성 방식은 누적된 드리프트(품질 저하 및 의미론적 일관성 상실) 문제를 겪기 쉬운데, EverAnimate는 지속적인 잠재 컨텍스트 메모리를 통해 이 흐름을 복원합니다. 이를 위해 '지속적 잠재 전파'와 '복원 흐름 매칭'이라는 두 가지 메커니즘을 결합하여 장시간 애니메이션의 일관성과 품질을 획기적으로 개선했습니다.

핵심 포인트

  • EverAnimate는 장시간(long-horizon) 애니메이션 생성을 위한 사후 학습 기법입니다.
  • 기존 청크 기반 생성 방식의 문제점인 저수준/고수준 드리프트 현상을 해결합니다.
  • 지속적 잠재 전파(Persistent Latent Propagation)를 통해 시간적 망각을 완화하고 컨텍스트 메모리를 유지합니다.
  • 복원 흐름 매칭(Restorative Flow Matching)을 도입하여 샘플링 과정에 암시적 복원 목적 함수를 적용, 충실도를 높입니다.
  • LoRA 튜닝만으로 기존 SOTA 방법 대비 장기 시간 범위에서 PSNR/SSIM 및 LPIPS/FID 등의 지표로 성능 개선을 입증했습니다.

우리는 시각적 품질과 캐릭터 정체성 (character identity)을 보존하면서 긴 시간 범위 (long-horizon)의 애니메이션 비디오 생성을 위한 효율적인 사후 학습 (post-training) 방법인 EverAnimate를 제안합니다. 긴 형태의 애니메이션은 상대적으로 정적인 환경을 배경으로 매우 역동적인 인간의 움직임을 합성해야 하기 때문에 여전히 어려운 과제로 남아 있으며, 이로 인해 청크 기반 (chunk-based) 생성은 누적된 드리프트 (drift) 현상이 발생하기 쉽습니다: (i) 정적인 배경의 점진적 저하와 같은 저수준 품질 드리프트 (low-level quality drift), 그리고 (ii) 일관되지 않은 캐릭터 정체성 및 시점 의존적 속성과 같은 고수준 의미론적 드리프트 (high-level semantic drift). 이 문제를 해결하기 위해, EverAnimate는 두 가지 상호 보완적인 메커니즘으로 구성된 지속적인 잠재 컨텍스트 메모리 (persistent latent context memory)에 생성을 고정함으로써 드리프트된 흐름 궤적 (flow trajectories)을 복원합니다. (i) 지속적 잠재 전파 (Persistent Latent Propagation)는 시간적 망각 (temporal forgetting)을 완화하는 동시에 잠재 공간 (latent space)에서 정체성과 움직임을 전파하기 위해 청크 전반에 걸쳐 컨텍스트 메모리를 유지합니다. (ii) 복원 흐름 매칭 (Restorative Flow Matching)은 속도 조절 (velocity adjustment)을 통해 샘플링 과정에서 암시적 복원 목적 함수 (implicit restoration objective)를 도입하여 청크 내 충실도 (within-chunk fidelity)를 향상시킵니다. 가벼운 LoRA 튜닝만으로 EverAnimate는 단기 및 장기 시간 범위 설정 모두에서 최첨단 (state-of-the-art) 장기 애니메이션 방법들을 능가합니다: 10초 지점에서 PSNR/SSIM을 각각 8%/7% 개선하고 LPIPS/FID를 22%/11% 감소시켰으며, 90초 지점에서는 그 이득이 각각 15%/15% 및 32%/27%로 증가합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0