arXiv논문2026. 06. 02. 11:44

AlbedoEdit: Albedo 가이드를 활용한 통합 인스턴스 레벨 비디오 편집

요약

AlbedoEdit는 알베도 맵(albedo map)을 활용하여 객체 삽입, 제거, 텍스처 편집을 통합적으로 수행하는 비디오 편집 프레임워크입니다. 비디오 파운데이션 모델을 기반으로 조명 변화와 복잡한 시각 효과를 암묵적으로 학습하여 정교한 인스턴스 레벨 편집을 가능하게 합니다.

핵심 포인트

알베도 맵을 활용한 사용자 친화적이고 미세한 외관 편집 메커니즘 제안
객체 삽입, 제거, 텍스처 편집을 하나의 프레임워크로 통합 지원
정반사, 그림자, 상호 반사 등 복잡한 시각 효과를 자연스럽게 시뮬레이션
기존 SOTA 비디오 편집 방식 대비 정성적·정량적 우수성 입증

비디오 생성 모델 (Video generative models)은 실사 같은 비디오 시퀀스를 합성하는 데 있어 놀라운 발전을 이루었습니다. 그러나 더 폭넓고 창의적인 다운스트림 애플리케이션 (downstream applications)을 가능하게 하려면 객체 삽입 (object insertion), 객체 제거 (object removal), 텍스처 편집 (texture editing)을 포함하는 미세한 인스턴스 레벨 (instance-level) 비디오 편집이 필요하며, 이는 중요하면서도 도전적인 문제로 부상했습니다. 기존 방식들은 거친 의미론적 제어 (coarse semantic control)만을 제공하는 통합 생성 프레임워크를 제안하거나, 개별 편집 작업을 위한 작업 특정적 (task-specific) 프레임워크를 설계하여 다양한 실제 시나리오에서의 유연성과 적용 가능성을 제한했습니다. 이러한 한계를 해결하기 위해, 우리는 객체 삽입, 객체 제거 및 텍스처 편집을 공동으로 지원하는 통합 생성 비디오 편집 프레임워크인 AlbedoEdit를 제안합니다. 우리의 핵심 통찰은 조명에 불변하며 정반사 (specularity), 그림자 (shadowing) 및 상호 반사 (inter-reflection) 효과를 포함하지 않는 고유의 알베도 맵 (albedo map)이 미세한 외관 편집을 지정하기 위한 효과적이고 사용자 친화적인 메커니즘을 제공한다는 점입니다. 비디오 파운데이션 모델 (video foundation models)을 기반으로 구축된 AlbedoEdit는 사용자가 편집한 첫 번째 프레임의 알베도를 조건으로 하여, 소스 RGB 비디오를 편집된 RGB 비디오로 변환하도록 미세 조정 (fine-tuned)되었습니다. 세 가지 편집 작업을 모두 아우르는 새로운 쌍을 이룬 합성 데이터셋 (paired synthetic dataset)으로 학습된 AlbedoEdit는 편집된 콘텐츠를 조화시키고, 정반사 하이라이트 (specular highlights), 부드러운 그림자 (soft shadows), 거울 반사 (mirror reflections)를 포함하여 편집 작업으로 인해 발생하는 복잡한 실제 시각 효과를 시뮬레이션하는 법을 암묵적으로 학습합니다. AlbedoEdit는 정성적 및 정량적 측면 모두에서 최첨단 (state-of-the-art) 비디오 편집 방식보다 우수한 성능을 입증합니다. 프로젝트 웹페이지는 https://vcai.mpi-inf.mpg.de/projects/AlbedoEdit/ 입니다.

AI 자동 생성 콘텐츠

원문 바로가기

AlbedoEdit: Albedo 가이드를 활용한 통합 인스턴스 레벨 비디오 편집

요약

핵심 포인트

댓글