arXiv논문2026. 06. 03. 12:14

MLSkip: 경량 메타데이터를 통한 ML 필터용 데이터 스키핑 (Data Skipping)

요약

ML 필터 사용 시 발생하는 데이터 스키핑 문제를 해결하기 위한 새로운 연구를 제안합니다. Parquet의 min-max 메타데이터와 신경망 검증 기술을 결합하여, 비용이 많이 드는 ML 모델 호출을 줄이고 데이터 가지치기 효율을 높이는 방법을 다룹니다.

핵심 포인트

ML 필터링을 위한 새로운 데이터 스키핑 기술 제안
신경망 검증 및 2D 볼록 껍질 메타데이터 구조 활용
ReLU 아키텍처에서 최대 38.31%의 가지치기 효율 달성
DuckDB 환경에서 PyTorch 대비 약 1.07배 속도 향상

최근 데이터베이스 벤더들은 필터 술어 (filter predicates)에서 사용할 수 있는 AI 함수들을 출시했습니다. 이러한 함수들은 종종 비용이 많이 드는 블랙박스 (black-box) ML 모델에 의존하기 때문에, 새로운 데이터 관리 과제들을 드러냅니다. 구체적으로, 정수 및 문자열 데이터에 대한 기존의 데이터 스키핑 (data skipping) 기술은 이러한 새로운 필터 유형에 적용하기 어렵습니다. 실제로, 예를 들어 blob storage에서 파일을 읽을 때 조건에 맞지 않는 행 그룹 (row groups)을 가지치기 (pruning) 할 수 있는 알려진 메커니즘이 없습니다. 본 연구에서는 ML 필터를 위한 데이터 스키핑 기술 연구를 시작합니다. 우리는 Parquet의 기본 min-max 메타데이터만으로도 가지치기를 가능하게 하기에 충분하다는 논거를 제시합니다. 이를 위해 우리는 두 가지 연구 흐름과 연결 고리를 찾습니다: (i) 최근 제안된 ML 모델용 쿼리 언어, 그리고 (ii) 신경망 검증 (neural network verification). TPC-H 및 TPC-DS 테이블을 대상으로 한 ReLU 아키텍처에서의 예비 결과에 따르면, 선택도 (selectivity)가 0.1% 미만인 필터의 평균 가지치기 효율은 27.4%에 달합니다. 마지막으로, 공간 조인 (spatial joins) 연구에서 영감을 받아, 우리는 검증 도구가 더 잘 활용할 수 있는 개선된 메타데이터 구조인 크기 제한이 있는 2D 볼록 껍질 (2D convex hull)을 제안합니다. 이는 행 그룹 및 컬럼 쌍당 최대 45바이트를 차지하면서 가지치기 효율을 38.31%까지 높입니다. 우리는 DuckDB에서 PyTorch 대비 1.07$ imes$의 엔드 투 엔드 (end-to-end) 속도 향상을 관찰했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MLSkip: 경량 메타데이터를 통한 ML 필터용 데이터 스키핑 (Data Skipping)

요약

핵심 포인트

댓글