arXiv논문2026. 06. 23. 11:42

MIRCaps: 세밀한 시각-언어 학습을 위한 이미지 레벨 및 영역 레벨 캡션이 포함된 대규모 혼합 도메인 데이터셋

요약

시각-언어 모델(VLM)의 성능 향상을 위해 이미지 레벨과 영역 레벨 캡션이 결합된 대규모 혼합 도메인 데이터셋인 MIRCaps를 소개합니다. 이 데이터셋은 세밀한 시각적 속성 학습을 지원하며, 이미지 캡셔닝 및 객체 탐지 태스크에서 효과적임을 입증했습니다.

핵심 포인트

14만 개 이상의 이미지와 약 100만 개의 이미지/영역 레벨 캡션 포함
객체 범주, 색상, 행동, 맥락 등 세밀한 시각적 속성 학습 가능
SmolVLM, BLIP, Qwen2.5-VL 등 경량 모델의 미세 조정 성능 입증
데이터셋 및 코드는 Zenodo를 통해 공개적으로 제공

최근 시각-언어 모델 (Vision-Language Models (VLMs))의 발전에도 불구하고, 범용 및 CCTV 기반 비디오 감시 시스템 모두를 위한 혼합 도메인 이미지-캡션 데이터셋은 여전히 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 141,364개의 이미지, 981,947개의 이미지 레벨 캡션 (image-level captions), 1,742,264개의 영역 레벨 캡션 (region-level captions), 그리고 1,391,779개의 경계 상자 주석 (bounding box annotations)으로 구성된 대규모 멀티모달 데이터셋을 소개합니다. 각 이미지는 전체 장면의 다양한 측면을 설명하는 평균 7개의 이미지 레벨 캡션과, 주석이 달린 각 경계 상자에 대한 7개의 영역 레벨 캡션과 연결되어 있습니다. 이러한 상호 보완적인 캡션 유형은 VLMs가 객체 범주, 추정 크기, 색상, 행동, 상태 및 주변 환경 맥락을 포함한 세밀한 시각적 속성을 학습하도록 설계되었습니다. 우리는 두 가지 중요한 다운스트림 태스크 (downstream tasks)인 이미지 캡셔닝 (image captioning)과 객체 탐지 (object detection)에서 이 데이터셋의 효과를 입증합니다. 실험 결과에 따르면 SmolVLM-256M-Instruct, BLIP, BLIP2, Qwen2.5-VL 3B-Instruct를 포함한 경량 VLMs가 우리의 데이터셋을 사용하여 효과적으로 미세 조정 (fine-tuned)될 수 있음을 보여줍니다. 우리의 데이터셋과 코드는 https://zenodo.org/records/20418601 에서 공개적으로 사용할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MIRCaps: 세밀한 시각-언어 학습을 위한 이미지 레벨 및 영역 레벨 캡션이 포함된 대규모 혼합 도메인 데이터셋

요약

핵심 포인트

댓글