Marlin-2B: 비디오에서 구조화된 정보를 추출하는 초소형 VLM
요약
Qwen3.5-VL을 기반으로 구축된 Marlin-2B는 비디오 내 이벤트의 '무엇'과 '언제'를 추출하는 데 특화된 2B 규모의 초소형 VLM입니다. 초 단위의 정밀한 타임스탬프와 구조화된 캡션을 생성하며, 특정 벤치마크에서 동급 최강의 성능을 보여줍니다.
핵심 포인트
- Qwen3.5-VL 기반의 2B 파라미터 초소형 VLM
- 비디오 내 이벤트의 정밀한 타임스탬프 및 구조화된 정보 추출
- 밀집 캡셔닝 및 시간적 접지 분야에서 동급 최고 성능 달성
- vLLM 추론 지원 및 caption/find 두 가지 모드 제공
안녕하세요 여러분!
Shubham과 Aryan입니다. Qwen3.5-VL을 기반으로 구축한 저희의 첫 번째 오픈 소스 VLM을 출시합니다.
비하인드 스토리: 저희는 소셜 미디어 콘텐츠를 위한 비디오 편집 에이전트(video editing agents)를 구축하고 있었으며, Instagram Reels를 분석하고 그 안에서 이벤트를 찾기 위해 Gemini-2.5-Flash를 사용하고 있었습니다. 작동은 잘 되지만, 하루에 약 천 개의 클립을 처리하다 보니 비용이 쌓였고, 저희 규모에서는 아무런 문제가 없는 소셜 미디어 클립임에도 불구하고 콘텐츠 정책(content-policy)에 계속 걸리는 문제가 발생했습니다.
놀고 있는 H100이 몇 대 있어서, 이를 사이드 프로젝트로 해결하는 데 투입했습니다. 저희는 범위를 의도적으로 좁게 유지했습니다. 대화할 수 있는 범용 VLM이 아니라, 실제 프로덕션에서 필요한 단 두 가지 작업에 집중했습니다. 구조화된 비디오 파이프라인(structured-video pipelines)을 구축하는 모든 분에게 일반적으로 유용할 것 같아 이를 공개합니다.
흥미로웠던 작업은 학습 루프(training loop)가 아니라 데이터 큐레이션(data curation)이었습니다. 저희는 공개된 비디오 주석 코퍼스(video-annotated corpora, Tarsier-Recap, ActivityNet, Charades-Ego, LSMDC 등)를 활용할 수 있을 것이라 기대했지만 실망했습니다. 실제로 대부분은 한 줄짜리 캡션과 대략적인 타임스탬프(timestamps)만 가지고 있었고, 초 단위의 정밀도로 이벤트별 주석이 달려 있지 않았습니다.
결과: Marlin은 개발자들이 비디오에 대해 실제로 묻고 싶어 하는 두 가지 질문, 즉 **무엇(what)**이 일어나고 있는가, 그리고 **언제(when)**인가? 에 맞춰 튜닝된 2B 규모의 비디오 VLM입니다. 이 모델은 초 단위로 정밀한 타임스탬프를 포함한 구조화된 장면(Scene) + 이벤트(Event) 캡션을 생성하며, 자연어 질의(natural-language queries)를 비디오 내의 구간 기반(span-grounded) (시작, 종료) 범위로 해결합니다. 2B 파라미터 규모에서, Marlin은 밀집 캡셔닝(dense captioning, DREAM-1K, CaReBench) 및 자연어 시간적 접지(natural-language temporal grounding, TimeLens-Bench) 분야에서 해당 체급 중 가장 강력한 오픈 모델이며, Gemini-2.5-flash와 비교해도 훨씬 적은 비용으로 경쟁력을 갖추고 있습니다. 저희는 조만간 학습 레시피(training recipe)와 비디오 캡셔닝 및 접지(grounding)를 위한 새로운 벤치마크도 공개할 예정입니다.
Marlin-2B는 vLLM 추론(inference)과 두 가지 모드를 제공합니다:
• *marlin.caption()*은 비디오로부터 장면 설명과 시간 기반 이벤트의 구조화된 출력을 제공합니다.
• *marlin.find()*는 비디오에 대한 자연어 질의에 대해 (시작, 종료) 타임스탬프를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기