본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 20. 15:08

비디오에서 구조화된 정보를 추출하는 초소형 VLM, Marlin-2B 오픈 소스 공개

요약

비디오 내에서 '무슨 일이 일어나는지'와 '언제 일어나는지'에 대한 구조화된 정보를 추출하도록 설계된 초소형 VLM인 Marlin-2B가 오픈 소스로 공개되었습니다. 2B 파라미터 규모임에도 불구하고 Gemini-1.5-flash와 경쟁할 수 있는 뛰어난 성능을 보여주는 해당 체급 최고의 오픈 모델입니다.

핵심 포인트

  • 비디오 내 사건의 내용과 발생 시점을 추출하는 데 특화된 파인튜닝 수행
  • 2B(20억 개)의 파라미터를 가진 초소형 모델로 효율성 극대화
  • 동급 체급 내에서 Gemini-1.5-flash와 경쟁 가능한 성능 보유
  • 오픈 소스로 공개되어 개발자들의 접근성 향상

비디오에서 구조화된 정보를 추출하는 초소형 VLM (Vision Language Model)인 Marlin-2B를 오픈 소스로 공개합니다.

Marlin은 개발자들이 비디오에서 묻고 싶어 하는 두 가지 질문, 즉 "무슨 일이 일어나고 있는가?"와 "언제 일어나는가?"에 맞춰 파인튜닝 (Finetuning)되었습니다.

단 2B (20억) 개의 파라미터 (Params)만으로 Gemini-2.5-flash와 경쟁할 수 있는, 해당 체급에서 최고의 오픈 모델입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @clementdelangue (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0