STORM: 비디오-언어 모델의 시공간 추론을 위한 내재화된 모델링
요약
STORM은 비디오-언어 모델(LVLM)의 시공간 추론을 위해 명시적인 텍스트 CoT 대신 잠재 궤적을 활용하는 2단계 프레임워크입니다. 외부 도구나 비디오 재생성 없이도 추론 과정을 내재화하여 지연 시간을 줄이고 정확도를 높였습니다.
핵심 포인트
- 텍스트 CoT 대신 연속 잠재 궤적을 통한 내재적 추론 방식 제안
- 사고-비디오 표현과 잠재 토큰 정렬을 통한 1단계 학습
- 정답 기반 지도 학습을 통한 2단계 추론 과정 내재화
- 추론 오버헤드 감소 및 VideoMME 등 주요 벤치마크 성능 향상
많은 비디오 추론 (video reasoning) 작업은 프레임 전반에 걸친 움직임, 시간적 순서, 그리고 변화하는 시각적 상태를 추적할 것을 요구합니다. 거대 비디오-언어 모델 (LVLMs)을 기반으로 구축된 기존 방법들은 텍스트 기반의 사고 사슬 (Chain-of-Thought, CoT), 키프레임 선택, 반복적인 프레임 재삽입, 또는 외부 도구 사용을 통해 추론을 외재화함으로써 이 과제를 해결하곤 합니다. 이러한 파이프라인은 효과적이기는 하지만, 추론 시간의 지연 (latency)과 엔지니어링 복잡성을 증가시키며, 시공간적 증거를 텍스트로 직렬화하거나 프레임으로부터 반복적으로 재인코딩하도록 강제합니다. 시각적 추론이 언어화되기 전에 암묵적으로 발생할 수 있다는 직관에 영감을 받아, 우리는 명시적인 텍스트 CoT 대신 제한된 연속 잠재 궤적 (bounded continuous latent trajectories)을 통해 추론하도록 LVLMs를 학습시키는 2단계 프레임워크인 STORMS (Spatial-Temporal reasOning via inteRnalized Modeling)를 제안합니다. 1단계 (Stage I)에서 STORMS는 생성된 비디오에서 유도된 사고-비디오 (thought-video) 표현과 잠재 토큰 (latent tokens)을 정렬하여, 잠재 상태를 역동적인 시각적 증거에 접지 (grounding) 시킵니다. 2단계 (Stage II)에서 모델은 정답만을 이용한 지도 학습 (answer-only supervision)을 통해 추가로 학습되며, 이를 통해 단계별 주석 없이도 추론 과정이 내재화되도록 유도합니다. 생성된 사고 비디오는 학습 중에만 사용됩니다. 추론 시 STORMS는 비디오를 재생성하거나, 프레임을 재삽입하거나, 외부 시각 도구를 호출하지 않고 제한된 잠재 롤아웃 (bounded latent rollout)을 수행합니다. VideoMME, MVBench, TempCompass, 그리고 MMVU에 대한 실험 결과, STORMS는 도구 또는 비디오 생성 기반의 추론 파이프라인과 비교했을 때 추론 오버헤드를 실질적으로 줄이면서 비디오 추론 정확도를 향상시킴을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기