당신의 데이터 매니폴드는 비밀리에 보상 모델이다: 텍스트-비디오 생성(Text-to-Video Generation)을 위한 Shell-LCC
요약
텍스트-비디오 생성 모델의 품질을 높이기 위해 데이터 매니폴드를 보상 모델로 활용하는 Shell-LCC 기법을 제안합니다. LCC의 평균 회귀 문제를 해결하기 위해 등방성 쉘 모델링을 도입하여 비디오의 사실성과 세부 디테일을 개선합니다.
핵심 포인트
- 데이터 매니폴드 구조를 활용한 저비용·고효율 보상 신호 도출
- Shell-LCC를 통해 고주파 세부 사항 및 사실성 강화
- 기존 LCC의 평균 회귀 현상 및 과도한 평활화 문제 해결
- 모션 블러 및 저수준 왜곡 완화 효과 입증
최근의 텍스트-비디오 (Text-to-Video, T2V) 확산 모델 (Diffusion Models)은 생성된 콘텐츠를 인간의 미적 기준에 맞추고 사실성을 높이기 위해 보조적인 보상 신호 (예: 보상 모델 (Reward Models) 또는 DPO를 통해)에 크게 의존합니다. 그러나 이러한 신호들은 상당한 계산 오버헤드를 발생시키고, 비용이 많이 드는 인간의 주석 (Human Annotations)을 필요로 하며, 종종 미세한 국소적 세부 사항 (Fine-grained local details)의 개선에는 한계가 있습니다. 본 논문에서 우리는 당신의 데이터 매니폴드 (Data Manifold)가 비밀리에 보상 모델 (Reward Model)이라고 주장합니다. 고품질의 지도 미세 조정 (Supervised Fine-Tuning, SFT) 데이터의 매니폴드 구조를 명시적으로 모델링하고 비디오 잠재 변수 (Video Latents)가 이 매니폴드 위에 놓이도록 유도함으로써, 우리는 비디오 품질을 크게 향상시키는, 특히 저수준 왜곡 (Low-level distortions)을 완화하는 밀집되고 미분 가능하며 거의 비용이 들지 않는 보상 신호를 도출합니다. 우리의 모델링은 매니폴드의 '골격 (Skeleton)'을 포착하는 국소 좌표 코딩 (Local Coordinate Coding, LCC)을 기반으로 합니다. 그러나 LCC를 직접 적용하면 평균 회귀 (Mean Regression) 현상이 발생하여 잠재 변수가 기하학적 평균으로 끌려가고 고주파 세부 사항 (High-frequency details)을 잃게 됩니다. 따라서 우리는 매니폴드의 '표면 (Surface)'을 등방성 쉘 (Isotropic Shell)로 모델링하여 실제 고밀도 영역과 일치시키는 쉘 국소 좌표 코딩 (Shell Local Coordinate Coding, Shell-LCC)으로 이를 확장합니다. 실험을 통해 우리의 접근 방식이 사실성을 개선하고, 고주파 세부 사항을 강화하며, 과도한 평활화 아티팩트 (Over-smoothing artifacts)를 줄이고, 모션 블러 (Motion Blur)를 완화함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기