비디오 속 시간의 흐름 학습: 속도 변화 감지 및 제어 모델
요약
본 논문은 비디오에서 '시간' 자체를 학습 가능한 시각적 개념으로 다루며, 영상의 재생 속도를 인식하고 조작하는 새로운 방법을 제시합니다. 자가 지도(self-supervised) 방식으로 시간 구조와 멀티모달 단서를 활용하여 속도 변화를 감지하고 재생 속도를 추정하는 모델을 개발했습니다. 이를 기반으로 고화질 슬로우 모션 데이터셋 구축, 특정 속도로 움직임을 생성하는 비디오 생성(speed-conditioned video generation), 그리고 저프레임/흐릿한 영상을 고해상도 프레임 시퀀스로 변환하는 시간 초해상화(temp
핵심 포인트
- 비디오에서 시간에 대한 인식과 제어는 기존 컴퓨터 비전 연구의 미흡했던 영역이었으며, 본 논문은 이를 핵심 주제로 다룹니다.
- 자가 지도 학습 방식을 활용하여 영상에 내재된 시간 구조와 멀티모달 단서를 이용해 속도 변화를 감지하고 재생 속도를 추정하는 모델을 개발했습니다.
- 새롭게 구축한 슬로우 모션 데이터셋은 일반 비디오보다 훨씬 풍부한 시간적 디테일을 담고 있어, 후속 연구의 기반이 됩니다.
- 시간 제어 능력을 통해 특정 속도로 움직임을 생성하거나 (speed-conditioned video generation), 저화질 영상을 고프레임으로 복원하는 시간 초해상화(temporal super-resolution)가 가능해졌습니다.
How can we tell whether a video has been sped up or slowed down? How can we generate videos at different speeds?
Although videos have been central to modern computer vision research, little attention has been paid to perceiving and controlling the passage of time. In this paper, we study time as a learnable visual concept and develop models for reasoning about and manipulating the flow of time in videos.
We first exploit the multimodal cues and temporal structure naturally present in videos to learn, in a self-supervised manner, to detect speed changes and estimate playback speed. We then show that these learned temporal reasoning models enable us to curate the largest slow-motion video dataset to date from noisy in-the-wild sources. Such slow-motion footage, typically filmed by high-speed cameras, contains substantially richer temporal detail than standard videos.
Using this data, we further develop models capable of temporal control, including speed-conditioned video generation, which produces motion at specified playback speed, and temporal super-resolution, which tranforms low-FPS, blurry videos into high-FPS sequences with fine-grained temporal details. Our findings highlight time as a manipulable, perceptual dimension in video learning, opening doors to temporally controllable video generation, temporal forensics detection, and potentially richer world-models that understand how events unfold over time.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기