본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 27. 01:39

사용자 맞춤형 비디오 기반 VLM 평가를 위한 트레이스 실행 기능이 포함된 하네스(Harness) 오픈소스 공개

요약

사용자 맞춤형 비디오 기반 VLM 평가를 위한 오픈소스 프레임워크를 공개했습니다. 실제 운영 환경과 유사한 푸티지를 활용하여 정확도, 지연 시간, 비용을 종합적으로 평가할 수 있는 트레이스 실행 기능을 제공합니다.

핵심 포인트

  • 실제 운영 환경과 유사한 푸티지 기반의 평가 세트 구축 강조
  • 모델 교체보다 프레임 샘플링 및 장면 경계 설정의 중요성 언급
  • 정확도, 지연 시간, 비용을 모두 고려한 평가 방법론 제시
  • 재현 가능한 전체 방법론과 오픈소스 저장소 공개

VLM(Vision-Language Model) 평가를 우리가 다룰 수 있는 수준으로 만든 프레임워크(Framing)는 간단합니다. 여러분의 비디오에서, 여러분이 실제로 감당할 수 있는 품질, 지연 시간(Latency), 그리고 비용 수준에서 여러분의 작업에 적합한 설정이 무엇인지 결정하는 것입니다.

그렇게 프레임을 잡고 나니 작업 방식이 바뀌었습니다. 우리는 리더보드(Leaderboard)를 읽는 것을 멈추고, 실제 운영 환경과 유사한 푸티지(Footage)로 작은 평가 세트(Eval sets)를 구축하기 시작했으며, 그에 대해 완전한 구성(Configurations)을 실행했습니다. 모델을 교체하는 것보다 프레임 샘플링(Frame sampling)과 장면 경계(Scene boundaries)를 설정하는 것이 정확도 향상에 더 큰 도움이 되는 경우가 많았습니다.

모든 결과가 입력값 및 구성과 연결될 수 있도록 트레이스 실행(Traced runs)을 포함하여 전체 방법론을 작성하였으며, 여러분의 데이터로 이를 재현할 수 있도록 오픈 소스 저장소(Open repo)도 공개했습니다.

여러분은 VLM 평가 시 정확도뿐만 아니라 지연 시간(Latency)과 비용 측면을 어떻게 처리하고 계신가요?

전체 글(Full Writeup): https://go.videodb.io/yKC51V3
submitted by /u/ashutrv
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0