비디오에서 구조화된 정보를 추출하는 초소형 VLM, Marlin-2B 오픈 소스 공개
요약
비디오 내에서 '무슨 일이 일어나는지'와 '언제 일어나는지'에 대한 구조화된 정보를 추출하도록 설계된 초소형 VLM인 Marlin-2B가 오픈 소스로 공개되었습니다. 2B 파라미터 규모임에도 불구하고 Gemini-1.5-flash와 경쟁할 수 있는 뛰어난 성능을 보여주는 해당 체급 최고의 오픈 모델입니다.
핵심 포인트
- 비디오 내 사건의 내용과 발생 시점을 추출하는 데 특화된 파인튜닝 수행
- 2B(20억 개)의 파라미터를 가진 초소형 모델로 효율성 극대화
- 동급 체급 내에서 Gemini-1.5-flash와 경쟁 가능한 성능 보유
- 오픈 소스로 공개되어 개발자들의 접근성 향상
비디오에서 구조화된 정보를 추출하는 초소형 VLM (Vision Language Model)인 Marlin-2B를 오픈 소스로 공개합니다.
Marlin은 개발자들이 비디오에서 묻고 싶어 하는 두 가지 질문, 즉 "무슨 일이 일어나고 있는가?"와 "언제 일어나는가?"에 맞춰 파인튜닝 (Finetuning)되었습니다.
단 2B (20억) 개의 파라미터 (Params)만으로 Gemini-2.5-flash와 경쟁할 수 있는, 해당 체급에서 최고의 오픈 모델입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @clementdelangue (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기