arXiv논문2026. 06. 01. 12:02

Lumos-Nexus: 비디오 통합 모델을 위한 균질한 잠재 공간 기반의 효율적인 주파수 브릿징

요약

Lumos-Nexus는 비디오 통합 모델의 훈련 효율성과 시각적 품질을 동시에 개선하는 새로운 프레임워크입니다. 2단계 설계를 통해 경량 생성기로 의미론적 제어를 학습한 뒤, 추론 시 UPFB 기술로 고용량 생성기의 성능을 점진적으로 활용합니다.

핵심 포인트

Lumos-Nexus의 2단계 설계로 훈련 효율성 극대화
UPFB 기술을 통한 거친 단계에서 정교한 단계로의 정제
추론 중심 비디오 생성 평가를 위한 VR-Bench 도입
VBench 기준 시각적 사실성 및 시간적 일관성 향상

커넥터 기반 (Connector-based) 비디오 통합 모델은 지시어 기반 (instruction-grounded) 비디오 합성에서 강력한 능력을 입증해 왔으나, 대규모 고충실도 (high-fidelity) 생성기를 통합 훈련 루프에 통합하는 것은 계산 비용이 너무 많이 들어 달성 가능한 시각적 품질을 제한합니다. 따라서 우리는 강력한 추론 중심 (reasoning-driven) 생성 능력을 개발하는 것을 용이하게 하는 동시에 시각적 충실도를 크게 향상시키는 훈련 효율적인 통합 비디오 생성 프레임워크인 Lumos-Nexus를 제안합니다. Lumos-Nexus는 2단계 설계를 채택합니다: 1) 훈련 중에는 경량 생성기 (lightweight generator)만을 이해 블록 (understanding block)과 정렬하여 추론 중심의 의미론적 제어 (semantic control)를 받아들이는 법을 학습합니다. 2) 추론 중에는 통합 점진적 주파수 브릿징 (Unified Progressive Frequency Bridging, UPFB)을 도입하여 공유 잠재 공간 (shared latent space) 내에서 고용량 사전 학습된 생성기 (pretrained generator)로 생성 권한을 점진적으로 이양하며, 이를 통해 거친 단계에서 정교한 단계로의 정제 (coarse-to-fine refinement)를 가능하게 하고 추론 품질을 저해하지 않으면서 고충실도 비디오를 생성합니다. 추론 중심 비디오 생성 벤치마크의 공백을 메우기 위해, 우리는 모델이 추론된 의도를 일관되고 의미론적으로 정렬된 비디오 콘텐츠로 변환하는 능력을 평가하는 VR-Bench를 도입합니다. 광범위한 실험을 통해 Lumos-Nexus가 VBench에서 시각적 사실성과 시간적 일관성 (temporal coherence) 측면에서 상당한 이득을 달성하는 동시에, VR-Bench에서 강력한 추론 기반 생성 성능을 보여줌을 입증했습니다. 코드와 모델은 https://jiazheng-xing.github.io/nexus-lumos-home/ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Lumos-Nexus: 비디오 통합 모델을 위한 균질한 잠재 공간 기반의 효율적인 주파수 브릿징

요약

핵심 포인트

댓글