본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 12:26

OmniNFT: 공동 오디오-비디오 생성을 위한 모달리티별 Omni Diffusion 강화학습 (Reinforcement Learning)

요약

본 연구는 공동 오디오-비디오 생성 분야의 난제인 강력한 모달리티별 충실도와 미세한 동기화를 해결하기 위해 OmniNFT라는 새로운 프레임워크를 제안합니다. 기존 강화학습(RL) 접근 방식이 직면하는 다중 목적 불일치, 그래디언트 불균형 등의 문제를 해결하고자 합니다. OmniNFT는 모달리티별 이점 라우팅, 레이어별 그래디언트 수술, 영역별 손실 재가중 등 세 가지 핵심 혁신을 통해 오디오 및 비디오 지각 품질과 교차 모달 정렬 측면에서 종합적인 성능 개선을 입증했습니다.

핵심 포인트

  • OmniNFT는 공동 오디오-비디오 생성을 위한 새로운 모달리티 인식 온라인 확산 강화학습(RL) 프레임워크입니다.
  • 기존 RL 접근법의 주요 장애물로는 다중 목적 이점 불일치, 다중 모달 그래디언트 불균형 등이 있습니다.
  • OmniNFT는 독립적인 보상별 이점을 해당 모달리티 생성 분기에 라우팅하는 '모달리티별 이점 라우팅'을 구현했습니다.
  • 레이어별 그래디언트 수술(Layer-wise gradient surgery)을 통해 얕은 오디오 레이어에서 비디오 분기 그래디언트를 선택적으로 분리하여 안정성을 높였습니다.
  • 실험 결과, OmniNFT는 오디오 및 비디오 지각 품질, 교차 모달 정렬, 그리고 동기화 측면에서 종합적인 성능 향상을 보였습니다.

최근 공동 오디오-비디오 생성 분야의 발전은 눈부시지만, 실제 응용 분야에서는 강력한 모달리티별 충실도 (per-modality fidelity), 교차 모달 정렬 (cross-modal alignment), 그리고 미세한 동기화 (fine-grained synchronization)를 요구합니다. 강화학습 (Reinforcement Learning, RL)은 유망한 패러다임을 제공하지만, 이를 다중 목적 및 다중 모달 공동 오디오-비디오 생성으로 확장하는 연구는 아직 미개척 상태로 남아 있습니다. 특히, 본 연구의 심층 분석을 통해 RL을 적용할 때 발생하는 주요 장애물이 다음에서 기인함을 최초로 밝혀냈습니다: (i) 다중 목적 이점 불일치 (multi-objective advantages inconsistency), 즉 다중 모달 출력의 이점 (advantages)이 그룹 내에서 항상 일치하지 않는 문제; (ii) 다중 모달 그래디언트 불균형 (multi-modal gradients imbalance), 즉 비디오 분기 (video-branch)의 그래디언트가 모달 내 생성을 담당하는 얕은 오디오 레이어로 누출되는 문제; (iii) 균등한 신용 할당 (uniform credit assignment), 즉 미세한 교차 모달 정렬 영역이 효율적인 탐색을 수행하지 못하는 문제입니다. 이러한 단점들은 단일 전역 이점 (single global advantage)을 사용하는 바닐라 (vanilla) RL 미세 조정 (fine-tuning) 전략이 종종 차선책 (suboptimal)의 결과를 초래함을 시사합니다. 이러한 과제를 해결하기 위해, 우리는 세 가지 핵심 혁신을 포함하는 새로운 모달리티 인식 온라인 확산 강화학습 (modality-aware online diffusion RL) 프레임워크인 OmniNFT를 제안합니다: (1) 모달리티별 이점 라우팅 (Modality-wise advantage routing), 이는 독립적인 보상별 이점을 각각의 해당 모달리티 생성 분기로 라우팅합니다. (2) 레이어별 그래디언트 수술 (Layer-wise gradient surgery), 이는 교차 모달 상호작용 레이어를 위한 그래디언트는 유지하면서 얕은 오디오 레이어에서의 비디오 분기 그래디언트를 선택적으로 분리 (detach)합니다. (3) 영역별 손실 재가중 (Region-wise loss reweighting), 이는 오디오-비디오 동기화 및 미세 정렬과 관련된 중요한 영역을 향해 정책 최적화 (policy optimization)를 조절합니다. LTX-2 백본 (backbone)을 사용한 JavisBench 및 VBench에서의 광범위한 실험을 통해, OmniNFT가 오디오 및 비디오 지각 품질, 교차 모달 정렬, 그리고 오디오-비디오 동기화 측면에서 종합적인 개선을 달성함을 입증하였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0