X요약2026. 05. 20. 15:08

비디오에서 구조화된 정보를 추출하는 초소형 VLM, Marlin-2B 오픈 소스 공개

요약

비디오 내에서 '무슨 일이 일어나는지'와 '언제 일어나는지'에 대한 구조화된 정보를 추출하도록 설계된 초소형 VLM인 Marlin-2B가 오픈 소스로 공개되었습니다. 2B 파라미터 규모임에도 불구하고 Gemini-1.5-flash와 경쟁할 수 있는 뛰어난 성능을 보여주는 해당 체급 최고의 오픈 모델입니다.

핵심 포인트

비디오 내 사건의 내용과 발생 시점을 추출하는 데 특화된 파인튜닝 수행
2B(20억 개)의 파라미터를 가진 초소형 모델로 효율성 극대화
동급 체급 내에서 Gemini-1.5-flash와 경쟁 가능한 성능 보유
오픈 소스로 공개되어 개발자들의 접근성 향상

비디오에서 구조화된 정보를 추출하는 초소형 VLM (Vision Language Model)인 Marlin-2B를 오픈 소스로 공개합니다.

Marlin은 개발자들이 비디오에서 묻고 싶어 하는 두 가지 질문, 즉 "무슨 일이 일어나고 있는가?"와 "언제 일어나는가?"에 맞춰 파인튜닝 (Finetuning)되었습니다.

단 2B (20억) 개의 파라미터 (Params)만으로 Gemini-2.5-flash와 경쟁할 수 있는, 해당 체급에서 최고의 오픈 모델입니다.

AI 자동 생성 콘텐츠

원문 바로가기

비디오에서 구조화된 정보를 추출하는 초소형 VLM, Marlin-2B 오픈 소스 공개

요약

핵심 포인트

댓글