본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 24. 10:29

video-SALMONN-R$^3$: 효율적인 비디오 이해를 위한 ReWatch, ReAsk, ReAnswer 학습 방법

요약

video-SALMONN-R³는 효율적인 비디오 이해를 위해 ReWatch, ReAsk, ReAnswer라는 3단계 학습 방법을 제안하는 엔드투엔드 비디오-LLM입니다. 강화학습을 통해 CoT 데이터 없이도 관련 세그먼트를 정밀하게 재시청하여 답변의 정확도를 높입니다.

핵심 포인트

  • ReWatch, ReAsk, ReAnswer를 통한 효율적인 비디오 이해 메커니즘 제안
  • 강화학습을 활용하여 비용이 많이 드는 CoT 데이터 주석 필요성 제거
  • 다시 답변하기(Re-Answer) 전략으로 모델의 추론-답변 불일치 해결
  • 기존 방식 대비 낮은 계산 비용으로 우수한 QA 성능 달성

비디오 거대 언어 모델 (Video LLMs)은 종종 계산 및 메모리 예산의 제한을 받으며, 이로 인해 프레임 속도(frame rates)와 공간 해상도(spatial resolutions)를 낮추어 사용하게 됩니다. 이는 질문 답변 (QA)을 위한 중요한 정보를 놓치는 원인이 될 수 있습니다. 실용적이고 효율적인 해결책은 2단계 패러다임입니다. 즉, 먼저 거친(coarse) 비디오 이해를 수행하여 관련 세그먼트를 국지화(localize)한 다음, 이러한 세그먼트들을 더 높은 시간적 또는 공간적 충실도(fidelity)로 다시 시청(re-watch)하는 것입니다. 본 논문에서는 Chain-of-Thought (CoT) 콜드 스타트(cold-start)에 의존하지 않고 강화학습 (Reinforcement Learning)을 통해 다시 시청하기를 가능하게 하는 최초의 엔드투엔드 (end-to-end) 비디오-LLM인 video-SALMONN-R$^3$를 제시합니다. 이 설계는 비용이 많이 드는 CoT 데이터 주석(annotations)의 필요성을 제거하며, 사전 학습된 비디오 이해 능력을 저하시킬 수 있는 CoT 기반의 지도 미세 조정 (Supervised Fine-Tuning, SFT)을 피합니다. 다시 시청함에 따라 유도되는 '추론 우선(reasoning-first)' 동작과 사전 학습된 비디오-LLM의 '답변 우선(answer-first)' 성향 사이의 불일치를 해결하기 위해, 우리는 모델이 첫 번째 시청 시 직접적인 답변을 먼저 생성한 다음 다시 시청한 후 이를 정제하는 '다시 답변하기 (re-answer)' 전략을 제안합니다. 마지막으로, 다시 시청하는 동안 질문 준수(question adherence)를 향상시키기 위해, 국지화된 세그먼트를 재방문할 때 쿼리(query)를 다시 주입하는 '다시 질문하기 (re-ask)' 메커니즘을 제안합니다. 실험 결과에 따르면 video-SALMONN-R$^3$는 기본 모델(base model)과 QA-SFT 베이스라인 모두를 일관되게 능가하며, 기존의 다시 시청 기반 접근 방식들을 훨씬 낮은 계산 비용으로 앞섭니다. 코드, 모델 및 데이터는 승인 시 공개될 예정입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0