arXiv논문2026. 06. 24. 10:29

video-SALMONN-R$^3$: 효율적인 비디오 이해를 위한 ReWatch, ReAsk, ReAnswer 학습 방법

요약

video-SALMONN-R³는 효율적인 비디오 이해를 위해 ReWatch, ReAsk, ReAnswer라는 3단계 학습 방법을 제안하는 엔드투엔드 비디오-LLM입니다. 강화학습을 통해 CoT 데이터 없이도 관련 세그먼트를 정밀하게 재시청하여 답변의 정확도를 높입니다.

핵심 포인트

ReWatch, ReAsk, ReAnswer를 통한 효율적인 비디오 이해 메커니즘 제안
강화학습을 활용하여 비용이 많이 드는 CoT 데이터 주석 필요성 제거
다시 답변하기(Re-Answer) 전략으로 모델의 추론-답변 불일치 해결
기존 방식 대비 낮은 계산 비용으로 우수한 QA 성능 달성

비디오 거대 언어 모델 (Video LLMs)은 종종 계산 및 메모리 예산의 제한을 받으며, 이로 인해 프레임 속도(frame rates)와 공간 해상도(spatial resolutions)를 낮추어 사용하게 됩니다. 이는 질문 답변 (QA)을 위한 중요한 정보를 놓치는 원인이 될 수 있습니다. 실용적이고 효율적인 해결책은 2단계 패러다임입니다. 즉, 먼저 거친(coarse) 비디오 이해를 수행하여 관련 세그먼트를 국지화(localize)한 다음, 이러한 세그먼트들을 더 높은 시간적 또는 공간적 충실도(fidelity)로 다시 시청(re-watch)하는 것입니다. 본 논문에서는 Chain-of-Thought (CoT) 콜드 스타트(cold-start)에 의존하지 않고 강화학습 (Reinforcement Learning)을 통해 다시 시청하기를 가능하게 하는 최초의 엔드투엔드 (end-to-end) 비디오-LLM인 video-SALMONN-R$^3$를 제시합니다. 이 설계는 비용이 많이 드는 CoT 데이터 주석(annotations)의 필요성을 제거하며, 사전 학습된 비디오 이해 능력을 저하시킬 수 있는 CoT 기반의 지도 미세 조정 (Supervised Fine-Tuning, SFT)을 피합니다. 다시 시청함에 따라 유도되는 '추론 우선(reasoning-first)' 동작과 사전 학습된 비디오-LLM의 '답변 우선(answer-first)' 성향 사이의 불일치를 해결하기 위해, 우리는 모델이 첫 번째 시청 시 직접적인 답변을 먼저 생성한 다음 다시 시청한 후 이를 정제하는 '다시 답변하기 (re-answer)' 전략을 제안합니다. 마지막으로, 다시 시청하는 동안 질문 준수(question adherence)를 향상시키기 위해, 국지화된 세그먼트를 재방문할 때 쿼리(query)를 다시 주입하는 '다시 질문하기 (re-ask)' 메커니즘을 제안합니다. 실험 결과에 따르면 video-SALMONN-R$^3$는 기본 모델(base model)과 QA-SFT 베이스라인 모두를 일관되게 능가하며, 기존의 다시 시청 기반 접근 방식들을 훨씬 낮은 계산 비용으로 앞섭니다. 코드, 모델 및 데이터는 승인 시 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

video-SALMONN-R$^3$: 효율적인 비디오 이해를 위한 ReWatch, ReAsk, ReAnswer 학습 방법

요약

핵심 포인트

댓글