VideoNet: 도메인 특화 행동 인식용 대규모 데이터셋
요약
본 논문은 충분히 다양하고 도전적인 행동 인식 데이터를 확보하기 어려워진 현 비전-언어 모델(VLMs)의 행동 인식 능력을 재활성화하기 위해 'VideoNet'이라는 도메인 특화 행동 인식 벤치마크를 제안합니다. VideoNet은 37개 도메인의 1,000개 고유 행동을 포함하며, 다양한 평가 설정(다중 선택, 이진 분류, 퓨샷 등)에서 모델들의 성능을 체계적으로 분석했습니다. 나아가, 테스트 시간 개선에만 의존하는 것이 아니라, 대규모의 비디오 질문-답변 쌍(약 50만 개)으로 구성된 도메인 특화 행동 인식 훈련 데이터셋을 구축하고 이를 활용하여 오픈 웨이트 모델의 성능을 향상시키는 방법을 제시했습니다.
핵심 포인트
- VideoNet은 37개 도메인의 1,000개 고유 행동을 포함하는 대규모 도메인 특화 행동 인식 벤치마크이다.
- VLMs는 VideoNet과 같은 복잡한 행동 인식 작업에서 평가 설정(다중 선택, 퓨샷 등)에 따라 성능 편차가 크고, 인간의 예시 제공 효과를 완전히 활용하지 못한다.
- 단순 테스트 시간 개선을 넘어, 약 50만 개의 비디오 질문-답변 쌍으로 구성된 도메인 특화 행동 인식 훈련 데이터셋 구축이 중요하다.
- 새로 구축한 데이터셋으로 미세 조정된 오픈 웨이트 모델(Molmo2-4B)은 VideoNet 벤치마크에서 최신 오픈 웨이트 8B 모델들을 능가하는 성능을 보였다.
비디오는 여러 프레임에 걸쳐 존재하는 행동을 포착할 수 있는 독특한 능력을 가지고 있습니다. 따라서, 많은 해 동안 행동 인식은 비디오 이해의 필수적인 작업이었습니다. 불행히도, 충분히 다양하고 도전적인 데이터의 부족으로 인해 현대적인 비전-언어 모델 (VLMs) 은 이제 더 이상 행동 인식 능력에 대해 평가받지 않습니다. VLM 시대에서 행동 인식을 부활시키기 위해 우리는 도메인 특화 행동에 대한 재귀적 집중을 지지합니다. 이를 위해, 우리는 37 개의 도메인의 1,000 개의 고유한 행동을 포함하는 도메인 특화 행동 인식 벤치마크인 VideoNet 을 소개합니다. 우리는 먼저 다중 선택 평가 설정으로 시작하며, 폐쇄형 모델과 개방형 모델 간의 차이는 극명합니다: Gemini 3.1 Pro 는 69.9% 의 정확도를 달성하고 Qwen3-VL-8B 는 겨우 45.0% 를 얻습니다. VLMs 가 VideoNet 에서 왜 어려움을 겪는지 이해하기 위해, 우리는 확률적 기회 (50%) 를 기준으로 하는 이진 설정으로 질문을 완화합니다. 여전히 Qwen 은 59.2% 의 정확도만 달성합니다. 평가 설정을 더 완화하여 행동의 k ∈ {1,2,3} 개의 인컨텍스트 예시를 제공합니다. 일부 모델은 퓨샷 (few-shot) 설정에서 우수하지만 다른 모델은 실패합니다: Qwen 은 +7.0% 를 개선하고 Gemini 는 -4.8% 를 감소시킵니다. 주목할 점은 이러한 개선이 전문가가 아닌 인간에게 퓨샷 예시를 제공했을 때의 +13.6% 개선보다 미미하다는 것입니다. VLMs 가 인컨텍스트 예시를 완전히 활용할 수 없음을 발견한 후, 우리는 테스트 시간 개선에서 훈련 측면으로 전환합니다. 우리는 도메인 특화 행동에 대한 첫 번째 대규모 훈련 데이터셋을 수집하며, 거의 50 만 개의 비디오 질문-답변 쌍을 포함합니다. 우리의 데이터로 Molmo2-4B 모델을 미세 조정하여 VideoNet 벤치마크에서 모든 오픈 웨이트 8B 모델을 초과했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기