arXiv논문2026. 05. 15. 15:56

Croissant Baker: 발견 가능하고, 거버넌스가 가능하며, 재사용 가능한 ML 데이터셋을 위한 메타데이터 생성

요약

Croissant는 ML 데이터셋 메타데이터 표준으로 자리 잡았으며, 발견 가능하고 거버넌스가 가능한 구조화된 JSON-LD 형식을 제공합니다. 하지만 대규모 로컬 저장소에서는 기존 Croissant 생성 방식이 어려웠습니다. 이에 따라 개발진은 모듈형 핸들러 레지스트리를 활용하여 데이터셋 디렉토리에서 직접 검증된 Croissant 메타데이터를 생성하는 로컬 우선 오픈 소스 CLI 도구인 Croissant Baker를 출시했습니다. 테스트 결과, Croissant Baker는 대규모 데이터셋에서도 97-100%의 높은 일치율을 보여주었습니다.

핵심 포인트

Croissant는 ML 데이터셋 메타데이터 표준으로, 발견 가능하고 거버넌스가 가능한 구조화된 JSON-LD 형식을 제공한다.
기존 Croissant 생성 방식은 대규모 로컬 저장소 환경에서 적용하기 어려웠다.
Croissant Baker는 모듈형 핸들러 레지스트리를 이용해 데이터셋 디렉토리에서 직접 검증된 메타데이터를 생성하는 로컬 우선 CLI 도구이다.
테스트 결과, Croissant Baker는 MIMIC-IV와 같은 대규모 데이터셋에서도 97-100%의 높은 일치율을 달성했다.

Croissant는 머신러닝 (ML) 데이터셋을 위한 메타데이터 표준으로 부상하였으며, 데이터셋의 발견, 자동화된 수집 (ingestion), 그리고 재현 가능한 분석을 ML 플랫폼 전반에서 기계가 확인 가능하도록 하는 구조화된 JSON-LD 기반 형식을 제공합니다. 도입이 가속화됨에 따라, NeurIPS는 이제 데이터셋 트랙에 제출되는 모든 항목에 Croissant 메타데이터를 요구합니다. 하지만 실제로는 Croissant 생성이 대개 데이터를 공개 플랫폼에 업로드하는 것부터 시작되는데, 이는 ML이 점점 더 의존하고 있는 고가치 데이터의 상당 부분을 보유하고 있는 거버넌스가 적용된 대규모 로컬 저장소에는 실행 불가능한 경로입니다. 우리는 모듈형 핸들러 레지스트리 (handler registry)를 통해 데이터셋 디렉토리에서 직접 검증된 Croissant 메타데이터를 생성하는 로컬 우선 (local-first) 오픈 소스 명령줄 도구(command-line tool)인 Croissant Baker를 출시합니다. 우리는 140개 이상의 데이터셋에 대해 Croissant Baker를 평가하였으며, 8억 8,600만 개의 행과 374개의 Parquet 파일로 구성된 MIMIC-IV까지 확장하여 테스트하였습니다. 제작자가 작성했거나 표준에서 유도된 정답 (ground truth)과의 홀드아웃 (held-out) 비교에서, Croissant Baker는 여러 도메인에 걸쳐 97-100%의 일치율을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Croissant Baker: 발견 가능하고, 거버넌스가 가능하며, 재사용 가능한 ML 데이터셋을 위한 메타데이터 생성

요약

핵심 포인트

댓글