사용자 비디오 기반 VLM 평가를 위한 트레이스 실행 기능이 포함된 하네스(Harness) 오픈소스 공개
요약
VLM(Vision Language Model)을 실제 운영 환경과 유사한 비디오 데이터로 평가할 수 있는 오픈소스 프레임워크를 공개했습니다. 프레임 샘플링과 장면 경계 설정 등 최적의 평가 구성을 위한 방법론과 트레이스 실행 기능을 제공합니다.
핵심 포인트
- 실제 운영 환경과 유사한 비디오 푸티지 기반의 평가 세트 구축 강조
- 모델 교체보다 프레임 샘플링 및 장면 경계 설정이 정확도 향상에 효과적
- 지연 시간(Latency)과 비용을 고려한 VLM 평가 방법론 제시
- 결과 재현을 위한 트레이스 실행 기능 포함 오픈소스 저장소 공개
VLM (Vision Language Model) 평가를 우리가 다룰 수 있는 수준으로 만든 프레임워크(Framing)는 간단합니다. 여러분의 비디오에서, 실제로 감당할 수 있는 품질, 지연 시간(Latency), 그리고 비용 수준에 맞춰 여러분의 작업에 적합한 설정이 무엇인지 결정하는 것입니다.
그렇게 프레임워크를 설정하고 나니 작업 방식이 바뀌었습니다. 우리는 리더보드(Leaderboards)를 읽는 것을 멈추고, 실제 운영 환경과 유사한 푸티지(Footage)로부터 작은 평가 세트(Eval sets)를 구축하기 시작했으며, 그에 대해 완전한 구성(Configurations)을 실행했습니다. 프레임 샘플링(Frame sampling)과 장면 경계(Scene boundaries) 설정이 모델을 교체하는 것보다 정확도(Accuracy) 향상에 더 큰 도움이 되는 경우가 많았습니다.
모든 결과가 입력값 및 구성과 연결될 수 있도록 트레이스 실행(Traced runs)을 포함하여 전체 방법론을 작성하였으며, 여러분의 데이터로 이를 재현할 수 있도록 오픈 소스 저장소(Open repo)도 공개했습니다.
여러분은 VLM 평가 시 정확도뿐만 아니라 지연 시간(Latency)과 비용 측면은 어떻게 다루고 계신가요?
전체 글: https://go.videodb.io/yKC51V3
submitted by /u/ashutrv
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기