
비디오 편집 모델은 복잡한 지침을 처리할 수 있을까?
요약
NJU와 Kuaishou는 복잡한 지침을 처리하는 조합적 비디오 편집(compositional video editing) 진단 벤치마크인 CoVEBench를 공개했습니다. 이 벤치마크는 현재 모델들이 결합된 편집 작업에서 여전히 어려움을 겪고 있음을 보여줍니다. 또한, OmniGameArena는 VLM 게임 에이전트의 실시간 성능을 측정하는 UE5 기반 벤치마크입니다.
핵심 포인트
- CoVEBench: 조합적 비디오 편집 진단 벤치마크 제공
- 현재 모델들은 결합된(coupled) 편집 작업에서 실패 경향 보임
- OmniGameArena는 VLM 게임 에이전트의 실시간 성능 측정 도구
- 개선 동역학 곡선을 통해 에이전트 학습 및 개선 과정 추적 가능
NJU와 Kuaishou의 연구원들이 조합적 비디오 편집(compositional video editing)을 위한 진단 벤치마크인 CoVEBench를 소개합니다.
626개의 다중 지점 지침과 9,990개의 체크리스트 항목은 현재 모델들이 여전히 결합된 편집(coupled edits)에서 실패하고 있음을 보여줍니다.
논문:
https://paperswithcode.co/paper/2606.084
15
…
데이터셋:
https://huggingface.co/datasets/NJU-LINK/CoVEBench
…
프로젝트 페이지:
https://nju-link.github.io/CoVEBench/
OmniGameArena는 VLM 게임 에이전트를 위한 실시간 UE5 벤치마크입니다.
12개의 새로운 게임은 단일 공유 인터페이스로 솔로, PvP, 협동(Coop)을 아우릅니다.
개선 동역학 곡선(Improvement Dynamics Curve)은 에이전트가 반성 라운드(reflection rounds)를 거치며 어떻게 학습하고 개선되는지를 추적합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기