Marlin-2B: 비디오에서 구조화된 정보를 추출하는 초소형 VLM

안녕하세요 여러분!

Shubham과 Aryan입니다. Qwen3.5-VL을 기반으로 구축한 저희의 첫 번째 오픈 소스 VLM을 출시합니다.

비하인드 스토리: 저희는 소셜 미디어 콘텐츠를 위한 비디오 편집 에이전트(video editing agents)를 구축하고 있었으며, Instagram Reels를 분석하고 그 안에서 이벤트를 찾기 위해 Gemini-2.5-Flash를 사용하고 있었습니다. 작동은 잘 되지만, 하루에 약 천 개의 클립을 처리하다 보니 비용이 쌓였고, 저희 규모에서는 아무런 문제가 없는 소셜 미디어 클립임에도 불구하고 콘텐츠 정책(content-policy)에 계속 걸리는 문제가 발생했습니다.
놀고 있는 H100이 몇 대 있어서, 이를 사이드 프로젝트로 해결하는 데 투입했습니다. 저희는 범위를 의도적으로 좁게 유지했습니다. 대화할 수 있는 범용 VLM이 아니라, 실제 프로덕션에서 필요한 단 두 가지 작업에 집중했습니다. 구조화된 비디오 파이프라인(structured-video pipelines)을 구축하는 모든 분에게 일반적으로 유용할 것 같아 이를 공개합니다.

흥미로웠던 작업은 학습 루프(training loop)가 아니라 데이터 큐레이션(data curation)이었습니다. 저희는 공개된 비디오 주석 코퍼스(video-annotated corpora, Tarsier-Recap, ActivityNet, Charades-Ego, LSMDC 등)를 활용할 수 있을 것이라 기대했지만 실망했습니다. 실제로 대부분은 한 줄짜리 캡션과 대략적인 타임스탬프(timestamps)만 가지고 있었고, 초 단위의 정밀도로 이벤트별 주석이 달려 있지 않았습니다.

결과: Marlin은 개발자들이 비디오에 대해 실제로 묻고 싶어 하는 두 가지 질문, 즉 **무엇(what)**이 일어나고 있는가, 그리고 **언제(when)**인가? 에 맞춰 튜닝된 2B 규모의 비디오 VLM입니다. 이 모델은 초 단위로 정밀한 타임스탬프를 포함한 구조화된 장면(Scene) + 이벤트(Event) 캡션을 생성하며, 자연어 질의(natural-language queries)를 비디오 내의 구간 기반(span-grounded) (시작, 종료) 범위로 해결합니다. 2B 파라미터 규모에서, Marlin은 밀집 캡셔닝(dense captioning, DREAM-1K, CaReBench) 및 자연어 시간적 접지(natural-language temporal grounding, TimeLens-Bench) 분야에서 해당 체급 중 가장 강력한 오픈 모델이며, Gemini-2.5-flash와 비교해도 훨씬 적은 비용으로 경쟁력을 갖추고 있습니다. 저희는 조만간 학습 레시피(training recipe)와 비디오 캡셔닝 및 접지(grounding)를 위한 새로운 벤치마크도 공개할 예정입니다.

Marlin-2B는 vLLM 추론(inference)과 두 가지 모드를 제공합니다:

• *marlin.caption()*은 비디오로부터 장면 설명과 시간 기반 이벤트의 구조화된 출력을 제공합니다.

• *marlin.find()*는 비디오에 대한 자연어 질의에 대해 (시작, 종료) 타임스탬프를 제공합니다.

Insights

Marlin-2B: 비디오에서 구조화된 정보를 추출하는 초소형 VLM

요약

핵심 포인트

댓글

Thermo Fisher, 고객 활동 강화에 따라 2026년 매출 474억~481억 달러 및 조정 EPS 24.93~25.33달러 전망

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

Thermo Fisher, 고객 활동 강화에 따라 2026년 매출 474억~481억 달러 및 조정 EPS 24.93~25.33달러 전망

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.