X요약2026. 06. 26. 13:12

Sony AI와 KAIST AI, MVTrack4Gen 발표

요약

Sony AI와 KAIST가 새로운 시점 비디오 생성을 위한 MVTrack4Gen 프레임워크를 발표했습니다. 다중 시점 포인트 트래킹을 활용해 3D 재구성 없이도 높은 기하학적 일관성을 달성했습니다. 또한 NVIDIA가 1M 컨텍스트를 지원하는 753B 파라미터 규모의 GLM-5.2 모델을 출시했습니다.

핵심 포인트

MVTrack4Gen: 기하학적 감독을 통한 새로운 시점 비디오 생성 프레임워크
추론 시 별도의 3D 재구성 과정이 필요하지 않음
DAVIS 및 iPhone 데이터셋에서 SOTA 수준의 일관성 달성
NVIDIA의 GLM-5.2: 753B MoE 모델 및 1M 컨텍스트 지원
Blackwell GPU 최적화를 위한 NVFP4 양자화 적용

Sony AI와 KAIST AI가 MVTrack4Gen을 소개합니다.

새로운 시점의 비디오 생성 (novel-view video generation)을 위해 다중 시점 포인트 트래킹 (multi-view point tracking)을 기하학적 감독 (geometric supervision)으로 전환하는 동작 인식 학습 프레임워크 (motion-aware training framework)입니다. 추론 (inference) 시 3D 재구성 (3D reconstruction)이 필요하지 않습니다. DAVIS 및 iPhone 데이터셋에서 SOTA (State-of-the-Art) 수준의 기하학적 일관성 (geometric consistency)을 달성했습니다.

프로젝트 페이지:
https://cvlab-kaist.github.io/MVTrack4Gen/
논문:
https://paperswithcode.co/paper/2606.26087
…
코드:
https://github.com/cvlab-kaist/MVTrack4Gen
…

NVIDIA가 Hugging Face에 최적화된 GLM-5.2를 출시했습니다.

1M 컨텍스트 (context)를 가진 753B 파라미터 MoE (Mixture-of-Experts) 모델로, Blackwell GPU를 위해 NVFP4로 양자화 (quantized)되었으며— FP8 정확도에 거의 근접합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Sony AI와 KAIST AI, MVTrack4Gen 발표

요약

핵심 포인트

댓글