CineCap: 영화적 비디오 캡셔닝을 위한 시공간 앵커 기반의 구조적 추론
요약
CineCap은 카메라 움직임, 구도 등 전문적인 영화 언어를 사용하여 비디오를 설명하는 새로운 프레임워크입니다. 시공간 앵커 기반의 구조적 추론과 강화학습을 결합하여 영화적 캡셔닝의 정확도와 포괄성을 높였습니다.
핵심 포인트
- 전문적인 영화적 개념을 추론하는 시공간 앵커 기반 구조적 추론 도입
- 강화학습을 통한 설명의 완전성과 사실적 정확성 간의 균형 최적화
- 영화적 캡셔닝 평가를 위한 CineCap Bench 벤치마크 구축
- 기존 모델을 능가하는 SOTA 성능 달성 및 코드 공개
영화적 캡셔닝 (Cinematographic captioning)은 카메라 움직임 (camera movement), 샷 크기 (shot size), 피사계 심도 (depth of field), 구도 (composition), 촬영 각도 (shooting angle)와 같은 전문적인 영화 언어 개념을 사용하여 비디오가 어떻게 촬영되었는지 설명하는 것을 목표로 합니다. 이러한 능력은 세밀한 비디오 이해 (fine-grained video understanding)와 제어 가능한 영화 품질의 비디오 생성 (controllable movie-quality video generation)에 중요하지만, 기존의 멀티모달 거대 언어 모델 (multimodal large language models)에서는 아직 충분히 탐구되지 않았습니다. 영화적 이해에 대한 질의응답 (question-answering) 기반 평가와 달리, 영화적 캡셔닝은 여러 영화적 차원에 걸쳐 통일된 개방형 설명 (open-form description)을 요구합니다. 이 작업은 두 가지 주요 이유로 인해 도전적입니다: 모델이 미묘한 시각적 증거로부터 전문적인 영화적 개념을 추론해야 하며, 포괄적이면서도 정확한 캡션을 생성해야 한다는 점입니다. 이에 따라, 우리는 시공간 앵커 (spatio-temporal anchors)를 활용한 구조적 추론 (structured reasoning)과 포괄성 (comprehensiveness), 정확성 (accuracy), 그리고 게이트형 커버리지 보상 (gated coverage rewards)을 사용하는 강화학습 (reinforcement learning)을 결합한 프레임워크인 CineCap을 제안합니다. 전자는 전문적인 영화적 설명을 명시적인 시각적 증거에 근거하게 하고 이를 지도 미세 조정 (supervised fine-tuning)을 위한 압축된 원자적 추론 (atomic reasoning)으로 조직하며, 후자는 설명의 완전성과 사실적 정확성 사이의 균형을 개선합니다. 또한, 체계적인 평가를 위해 472개의 수동 주석 비디오-캡션 쌍으로 구성된 벤치마크인 CineCap Bench를 구축합니다. 광범위한 실험 결과, CineCap은 강력한 독점 및 오픈 소스 베이스라인 (baselines)을 지속적으로 능가하며 영화적 캡셔닝 분야의 새로운 SOTA (state of the art)를 구축했습니다. 코드, 모델 체크포인트 및 벤치마크는 https://github.com/Hectormxy/CineCap.git 에서 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기