RefDecoder: 조건부 비디오 디코딩을 통한 시각적 생성 능력 향상
요약
본 논문은 기존 잠재 확산 모델의 디코더가 조건부 정보 없이 작동하는 구조적 비대칭성 문제를 지적하고, 이를 해결하기 위해 RefDecoder를 제안합니다. RefDecoder는 참조 어텐션 메커니즘을 사용하여 고충실도 참조 이미지 신호를 디코딩 과정에 직접 주입함으로써 구조적 무결성을 보존합니다. 이 모델은 다양한 기존 비디오 생성 시스템에 추가 미세 조정 없이 통합 가능하며, 여러 벤치마크에서 높은 성능 향상을 입증했습니다.
핵심 포인트
- 기존 잠재 확산 모델의 디코더는 조건부 정보가 부족하여 디테일 손실 및 불일치를 초래하는 구조적 비대칭성이 존재한다.
- RefDecoder는 참조 어텐션(reference attention)을 활용하여 고충실도 참조 이미지 신호를 디코딩 과정에 직접 주입한다.
- 이 방법은 추가적인 미세 조정 없이 기존의 다양한 비디오 생성 시스템에 쉽게 통합될 수 있다.
- Inter4K, WebVid 등 여러 벤치마크에서 무조건부 베이스라인 대비 최대 +2.1dB PSNR 향상을 달성했다.
- 피사체 및 배경 일관성 측면에서 전반적인 품질 향상을 보여 스타일 전이 및 비디오 편집 정교화에도 활용 가능하다.
비디오 생성 (Video generation)은 방대한 양의 다운스트림 애플리케ชัน을 구동합니다. 그러나 사실상의 표준인 잠재 확산 모델 (latent diffusion models)은 일반적으로 강력한 조건부 디노이징 네트워크 (conditioned denoising networks)를 사용하는 반면, 그 디코더 (decoders)는 종종 무조건부 (unconditional) 상태로 남아 있습니다. 우리는 이러한 구조적 비대칭성이 입력 이미지와 비교했을 때 상당한 디테일 손실과 불일치를 초래한다는 점을 관찰했습니다. 이를 해결하기 위해, 우리는 구조적 무결성 (structural integrity)을 보존하려면 디코더에도 동일한 수준의 조건부 정보 (conditioning)가 필요하다고 주장합니다. 우리는 참조 어텐션 (reference attention)을 통해 고충실도 참조 이미지 신호를 디코딩 과정에 직접 주입하는 참조 조건부 비디오 VAE 디코더인 RefDecoder를 소개합니다. 구체적으로, 경량 이미지 인코더 (image encoder)가 참조 프레임을 디테일이 풍부한 고차원 토큰 (high-dimensional tokens)으로 매핑하며, 이 토큰들은 각 디코더 업샘플링 (up-sampling) 단계에서 디노이징된 비디오 잠재 토큰 (denoised video latent tokens)과 함께 공동 처리됩니다. 우리는 여러 서로 다른 디코더 백본 (decoder backbones) (예: Wan 2.1 및 VideoVAE+)에 걸쳐 일관된 개선을 입증하였으며, Inter4K, WebVid, 그리고 Large Motion 재구성 벤치마크에서 무조건부 베이스라인 (unconditional baselines) 대비 최대 +2.1dB PSNR을 달성했습니다. 특히, RefDecoder는 추가적인 미세 조정 (fine-tuning) 없이 기존 비디오 생성 시스템에 직접 교체하여 사용할 수 있으며, VBench I2V 벤치마크에서 피사체 일관성 (subject consistency), 배경 일관성 (background consistency), 그리고 전반적인 품질 점수(overall quality scores)의 전방위적인 향상을 보고했습니다. I2V를 넘어, RefDecoder는 스타일 전이 (style transfer) 및 비디오 편집 정교화 (video editing refinement)와 같은 광범위한 시각적 생성 작업에도 잘 일반화됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기