arXiv논문2026. 05. 12. 09:51

비디오 이해 보상 모델링: 강력한 벤치마크 및 고성능 보상 모델

요약

본 논문은 비디오 이해 보상 모델링의 발전을 가로막는 평가 벤치마크 및 고품질 데이터 부족 문제를 해결하기 위한 통합 프레임워크를 제안합니다. 연구진은 일반, 장문, 추론 중심 작업을 포괄하는 2,100개의 선호도 쌍을 가진 Video Understanding Reward Bench (VURB)와 대규모 감독 데이터를 제공하는 Video Understanding Preference Dataset (VUP-35K)를 구축했습니다. 이 데이터셋을 기반으로 판별적(VideoDRM) 및 생성적(VideoGRM) 보상 모델을 훈련시켜, 기존 벤치마크에서 최첨단 성능을 달성했음을 입증합니다.

핵심 포인트

비디오 이해 보상 모델링의 핵심 병목 현상은 견고한 평가 벤치마크와 대규모 고품질 데이터 부족에 있음.
Video Understanding Reward Bench (VURB)를 소개하여 일반, 장문, 추론 중심 비디오 작업을 포괄하는 표준화된 평가 환경을 제공함.
자동화 파이프라인으로 Video Understanding Preference Dataset (VUP-35K)를 구축하여 대규모의 고품질 감독 데이터를 확보함.
VideoDRM(판별적)과 VideoGRM(생성적) 두 가지 보상 모델을 훈련시켜 최첨단 성능을 달성했으며, 특히 best-of-$N$ 테스트에서 이점을 입증함.

멀티모달 보상 모델은 텍스트 및 이미지 도메인에서 크게 발전했지만, 비디오 이해 보상 모델링의 진보는 견고한 평가 벤치마크와 고품질 선호도 데이터 부족으로 인해 여전히 심각하게 제한적입니다. 이를 해결하기 위해, 우리는 벤치마크 설계, 데이터 구축, 보상 모델 학습을 아우르는 통합 프레임워크를 제안합니다. 우리는 일반(general), 장문(long), 추론 중심 비디오 작업을 포괄하며, 긴 사고 과정(chain-of-thought) 추적 기록(평균 1,143 토큰)과 다수 투표 평가를 특징으로 하는 2,100개의 선호도 쌍을 갖춘 Video Understanding Reward Bench (VURB)를 소개합니다. 또한 우리는 완전히 자동화된 파이프라인을 통해 Video Understanding Preference Dataset (VUP-35K)를 구축하여 비디오 보상 학습에 대한 대규모 고품질 감독 데이터를 제공합니다. 이 데이터를 기반으로, 우리는 판별적(discriminative)이고 생성적(generative)인 두 가지 보상 모델인 VideoDRM과 VideoGRM을 훈련시켰으며, 두 모델 모두 VURB와 VideoRewardBench에서 최첨단 성능을 달성했습니다. 추가 분석 결과는 VUP-35K가 보상 성능과 모델 추론 능력을 모두 향상시키며, VideoDRM과 VideoGRM이 best-of-$N$ 테스트 시간 스케일링 하에서 상당한 이득을 가져온다는 것을 확인시켜 줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

비디오 이해 보상 모델링: 강력한 벤치마크 및 고성능 보상 모델

요약

핵심 포인트

댓글