MONET: 대규모의, 개방된, 비중복적이며 풍부한 텍스트-이미지 (Text-to-image) 데이터셋
요약
MONET은 29억 개의 원시 쌍에서 정제하여 구축한 1억 490만 개의 고품질 이미지-텍스트 쌍으로 구성된 Apache 2.0 라이선스의 개방형 데이터셋입니다. 안전 및 도메인 필터링, 중복 제거, 시각-언어 모델을 통한 재캡션 과정을 거쳐 데이터의 품질과 다양성을 확보했습니다. 이 데이터셋으로 학습된 40억 파라미터 규모의 잠재 확산 모델은 GenEval 및 DPG 벤치마크에서 경쟁력 있는 성능을 입증했습니다.
핵심 포인트
- Apache 2.0 라이선스를 따르는 대규모 개방형 텍스트-이미지 데이터셋 제공
- 필터링, 중복 제거, 재캡션 및 합성 데이터 보강을 통한 고품질 데이터 구축
- 다운스트림 활용을 위한 미리 계산된 임베딩 및 어노테이션 포함
- 40억 파라미터 규모의 모델 학습을 통해 데이터셋의 유효성 및 재현성 검증
대규모 텍스트-이미지 (Text-to-image) 모델을 학습시키기 위해서는 다양한 콘텐츠와 상세한 캡션 (Caption)을 포함한 고품질의 큐레이션된 데이터셋이 필요합니다. 그러나 이러한 코퍼스 (Corpora)를 대규모로 수집, 필터링, 중복 제거 및 재캡션 (Re-captioning)하는 데 드는 비용과 복잡성은 이 분야의 개방적이고 재현 가능한 연구를 저해합니다. 우리는 안전 필터링 (Safety filtering), 도메인 기반 필터링 (Domain-based filtering), 완전 및 유사 중복 제거 (Exact and near-duplicate removal), 그리고 단문에서 장문에 이르는 설명을 제공하는 다수의 시각-언어 모델 (Vision-language models)을 활용한 재캡션 과정을 거쳐, 이질적인 오픈 소스 전반에 걸친 29억 개의 원시 쌍 (Raw pairs)으로부터 수집된 약 1억 490만 개의 이미지-텍스트 쌍으로 구성된 Apache 2.0 라이선스의 개방형 데이터셋인 MONET을 소개합니다. 또한 합성 생성된 샘플 (Synthetically generated samples)을 통해 더욱 보강되었습니다. 각 이미지에는 다운스트림 (Downstream) 활용을 가속화하기 위해 미리 계산된 임베딩 (Embeddings)과 어노테이션 (Annotations)이 함께 제공됩니다. MONET의 효과를 검증하기 위해, 우리는 이 데이터셋만을 사용하여 40억 파라미터 규모의 잠재 확산 모델 (Latent diffusion model)을 학습시켰으며, 경쟁력 있는 GenEval 및 DPG 점수를 달성했습니다. 이는 우리의 데이터셋이 대규모의 재현 가능한 텍스트-이미지 연구에 대한 장벽을 낮춘다는 것을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기