arXiv논문2026. 05. 01. 13:11

TransVLM: 임의의 컷 전환을 탐지하기 위한 비전-언어 프레임워크 및 벤치마크

요약

본 논문은 기존 샷 경계 탐지(SBD)의 한계를 극복하고, 전환의 연속적인 시간적 구분을 명시적으로 포착하는 '샷 전환 탐지(STD)' 작업을 공식화했습니다. 이를 위해 광유동을 운동 사전 지식으로 통합한 비전-언어 모델 프레임워크인 TransVLM을 제안합니다. TransVLM은 색상 및 운동 정보를 직접 처리하여 시간적 인식을 크게 향상시키며, 합성 데이터 엔진과 포괄적인 벤치마크를 통해 높은 성능을 입증했습니다.

핵심 포인트

전통적인 SBD의 한계를 극복하기 위해 '샷 전환 탐지(STD)'라는 새로운 작업을 정의하고 공식화함.
제안된 TransVLM은 광유동(optical flow)을 운동 사전 지식으로 명시적으로 주입하여 시간적 인식을 강화함.
TransVLM은 색상 및 운동 표현이 연결된 데이터를 효율적으로 처리하며, 추가적인 시각 토큰 오버헤드를 최소화함.
견고한 학습을 위해 다양한 전환 비디오를 합성하는 확장 가능한 데이터 엔진과 포괄적인 벤치마크를 구축함.
광범위한 실험 결과, TransVLM은 기존의 휴리스틱 방법, 시공간 네트워크, 최상위 VLM들을 모두 능가하는 성능을 보임.

전통적인 샷 경계 탐지 (Shot Boundary Detection, SBD) 는 작업을 고립된 컷 포인트를 중심으로 구성함으로써 복잡한 전환에 본질적으로 어려움을 겪으며, 종종 손상된 비디오 샷을 생성합니다. 우리는 이 근본적인 한계를 해결하기 위해 샷 전환 탐지 (Shot Transition Detection, STD) 작업을 공식화합니다. STD 는 모호한 지점을 찾는 대신, 전환의 연속적인 시간적 구분을 명시적으로 탐지합니다. 이를 위해 우리는 STD 를 위한 비전-언어 모델 (Vision-Language Model, VLM) 프레임워크인 TransVLM 을 제안합니다. 공간적 의미에 주로 의존하고 세밀한 샷 간 동역학에 어려움을 겪는 일반적인 VLM 과 달리, 우리의 방법은 입력 단계에서 광유동 (optical flow) 을 중요한 운동 사전 지식 (motion prior) 으로 명시적으로 주입합니다. 단순하면서도 효과적인 특징 융합 전략을 통해 TransVLM 은 색상 및 운동 표현이 연결된 데이터를 직접 처리하여 언어 백본에 추가적인 시각 토큰 오버헤드를 발생시키지 않으면서 시간적 인식을 크게 향상시킵니다. 공개 데이터의 심각한 클래스 불균형을 극복하기 위해 다양한 전환 비디오를 합성하여 견고한 학습을 위한 확장 가능한 데이터 엔진을 설계하고, STD 를 위한 포괄적인 벤치마크를 마련했습니다. 광범위한 실험 결과 TransVLM 은 전통적인 휴리스틱 방법, 전문화된 시공간 네트워크, 최상위 VLM 들을 모두 능가하는 우수한 전반적인 성능을 달성함을 보여줍니다. 이 작업은 현재 프로덕션에 배포되었습니다. 관련 연구를 더 알아보시려면 HeyGen Research (https://www.heygen.com/research) 와 HeyGen Avatar-V (https://www.heygen.com/research/avatar-v-model) 를 방문하세요. 프로젝트 페이지: https://chence17.github.io/TransVLM/

AI 자동 생성 콘텐츠

원문 바로가기

TransVLM: 임의의 컷 전환을 탐지하기 위한 비전-언어 프레임워크 및 벤치마크

요약

핵심 포인트

댓글