arXiv중요논문2026. 04. 24. 21:36

Seeing Fast and Slow: 비디오에서 시간의 흐름 학습하기

요약

본 논문은 비디오에서 '시간' 자체를 학습 가능한 시각적 개념으로 다루며, 영상의 재생 속도를 인식하고 조작하는 새로운 방법을 제시합니다. 자가 지도(self-supervised) 방식으로 시간 구조와 멀티모달 단서를 활용하여 속도 변화를 감지하고 재생 속도를 추정하는 모델을 개발했습니다. 이를 기반으로 고화질 슬로우 모션 데이터셋 구축, 특정 속도로 움직임을 생성하는 비디오 생성(speed-conditioned video generation), 그리고 저프레임/흐릿한 영상을 고해상도 프레임 시퀀스로 변환하는 시간 초해상화(temp

핵심 포인트

비디오에서 시간에 대한 인식과 제어는 기존 컴퓨터 비전 연구의 미흡했던 영역이었으며, 본 논문은 이를 핵심 주제로 다룹니다.
자가 지도 학습 방식을 활용하여 영상에 내재된 시간 구조와 멀티모달 단서를 이용해 속도 변화를 감지하고 재생 속도를 추정하는 모델을 개발했습니다.
새롭게 구축한 슬로우 모션 데이터셋은 일반 비디오보다 훨씬 풍부한 시간적 디테일을 담고 있어, 후속 연구의 기반이 됩니다.
시간 제어 능력을 통해 특정 속도로 움직임을 생성하거나 (speed-conditioned video generation), 저화질 영상을 고프레임으로 복원하는 시간 초해상화(temporal super-resolution)가 가능해졌습니다.

우리는 어떤 비디오가 빠르게 재생되었는지(sped up) 또는 느리게 재생되었는지(slowed down) 어떻게 알 수 있을까요? 또한, 다양한 속도로 비디오를 생성할 수는 없을까요?

비록 비디오가 현대 컴퓨터 비전 연구의 중심에 있었지만, 시간의 경과를 인식하고 제어하는 것에는 많은 관심이 기울여지지 않았습니다. 본 논문에서는 시간을 학습 가능한 시각적 개념(learnable visual concept)으로 간주하여, 비디오에서 시간의 흐름에 대해 추론하고 조작할 수 있는 모델을 개발합니다.

먼저, 우리는 비디오에 자연적으로 존재하는 멀티모달 단서(multimodal cues)와 시간적 구조(temporal structure)를 활용하여, 자기 지도 학습(self-supervised manner) 방식으로 속도 변화를 감지하고 재생 속도를 추정하는 방법을 학습합니다. 이후 이러한 학습된 시간 추론 모델(learned temporal reasoning models)이 노이즈가 많은 야외 출처(in-the-wild sources)에서 현재까지 가장 큰 슬로우 모션 비디오 데이터셋을 구축할 수 있게 함을 보여줍니다. 일반적으로 고속 카메라로 촬영되는 이러한 슬로우 모션 푸티지(footage)는 표준 비디오보다 훨씬 풍부한 시간적 디테일(temporal detail)을 포함하고 있습니다.

이 데이터를 사용하여, 우리는 속도 조건화된 비디오 생성(speed-conditioned video generation)을 포함하는 시간 제어 모델(temporal control models)과, 저프레임률(low-FPS), 흐릿한 비디오를 미세한 시간적 디테일을 가진 고프레임률(high-FPS) 시퀀스로 변환하는 시간 초해상도(temporal super-resolution)를 개발합니다. 우리의 연구 결과는 시간을 조작 가능한 인식 차원(manipulable, perceptual dimension)으로 강조하며, 이는 시간적으로 제어 가능한 비디오 생성, 시간 포렌식 탐지(temporal forensics detection), 그리고 사건이 시간에 따라 어떻게 전개되는지를 이해하는 잠재적으로 더 풍부한 월드 모델(world-models)의 문을 열어줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Seeing Fast and Slow: 비디오에서 시간의 흐름 학습하기

요약

핵심 포인트

댓글