arXiv논문2026. 05. 29. 12:54

GPIC: 시각적 생성을 위한 거대 허용형 이미지 코퍼스

요약

시각적 생성 모델링 연구를 위한 대규모 허용형 이미지 코퍼스인 GPIC를 소개합니다. 약 28조 픽셀 규모의 데이터셋으로, 상업적 이용이 가능한 라이선스와 안전 필터링을 거친 1억 개의 학습 데이터를 포함합니다.

핵심 포인트

28조 픽셀 규모의 거대 허용형 이미지 코퍼스 GPIC 공개
연구 및 상업적 용도 모두 가능한 허용적 라이선스 제공
안전 필터링 및 중복 제거가 완료된 고품질 데이터셋
벤치마킹 프로토콜 및 픽셀 공간 흐름 매칭 베이스라인 제공

시각적 생성 모델링 (Visual Generative Modeling)을 위한 확장 가능한 방법을 연구하려면 대규모의 접근 가능하고 안정적인 데이터셋이 필요합니다. 우리는 약 28조 픽셀 규모의 거대 허용형 이미지 코퍼스 (Giant Permissive Image Corpus)인 GPIC를 소개합니다. GPIC는 최첨단 시각-언어 모델 (Vision-Language Model)에 의해 캡션이 달린 다양한 인터넷 이미지로 구성되어 있으며, 1억 개의 학습 (Training) 데이터, 20만 개의 검증 (Validation) 데이터, 그리고 100만 개의 테스트 (Test) 예시를 포함합니다. 또한, 모든 GPIC 이미지는 연구 및 상업적 용도 모두에 대해 허용적인 라이선스 (Permissive License)를 가집니다. GPIC는 안전 필터링 (Safety-filtered) 및 중복 제거 (Deduplicated) 과정을 거쳤으며, Hugging Face에 중앙 집중식으로 호스팅됩니다. 우리는 GPIC에서의 생성 모델링을 위한 벤치마킹 프로토콜 (Benchmarking Protocol)을 제공합니다. 마지막으로, GPIC에서의 픽셀 공간 흐름 매칭 (Pixel-space Flow Matching)에 대한 참조 베이스라인 (Reference Baseline)을 제공합니다. 우리의 데이터셋, 벤치마크 및 모델은 https://huggingface.co/datasets/stanford-vision-lab/gpic 에서 확인할 수 있습니다. 평가 툴킷 (Evaluation Toolkit)과 코드는 https://gpic.stanford.edu 에서 제공됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

GPIC: 시각적 생성을 위한 거대 허용형 이미지 코퍼스

요약

핵심 포인트

댓글