arXiv논문2026. 06. 30. 13:35

MaDI-Bench: 엔드투엔드(End-to-End) 데이터 통합 벤치마크

요약

MaDI-Bench는 관계형 테이블의 엔드투엔드 데이터 통합을 평가하기 위해 제안된 최초의 벤치마크입니다. 스키마 매칭부터 충돌 해결까지 전체 파이프라인을 포괄하며, LLM 기반 파이프라인을 포함한 다양한 시스템의 성능을 검증할 수 있습니다.

핵심 포인트

데이터 통합의 전 과정을 포괄하는 최초의 엔드투엔드 벤치마크
스키마 매칭, 값 정규화, 엔티티 매칭, 충돌 해결 단계 포함
벤치마크 포화를 방지하기 위한 작업 변형 방법론 제공
LLM 기반 파이프라인의 성능 측정 및 검증 가능

데이터 통합 (Data integration)은 이기종 데이터 세트 (heterogeneous data sets)를 하나의 일관된 표현으로 결합합니다. 데이터 통합은 스키마 매칭 (schema matching), 값 정규화 (value normalization), 엔티티 블로킹 (entity blocking), 엔티티 매칭 (entity matching), 그리고 데이터 퓨전 (data fusion)을 포함하는 일련의 상호 의존적인 작업들을 포함합니다. 기존의 벤치마크들은 이러한 단계들을 개별적으로 평가하거나, 데이터 통합 파이프라인 (data integration pipeline)의 불완전한 버전만을 다루어 특정 단계들을 누락시키고 있습니다. 공개적인 엔드투엔드 데이터 통합 벤치마크의 부재는 통합 프로세스를 전체로서 다루는 데이터 통합 방법론에 대한 연구를 저해합니다. 본 논문은 통합 프로세스의 모든 단계를 포괄하며 관계형 테이블 (relational tables)의 엔드투엔드 통합을 위한 최초의 벤치마크인 Mannheim Data Integration Benchmark (MaDI-Bench)를 소개함으로써 이러한 공백을 메웁니다. MaDI-Bench는 (i) 전체 스키마 매칭, 값 정규화, 엔티티 매칭, 그리고 충돌 해결 (conflict resolution) 파이프라인을 각각 요구하는 여러 애플리케이션 도메인에 걸친 일련의 기본 엔드투엔드 데이터 통합 작업 세트와, (ii) 데이터 통합 시스템이 발전함에 따라 발생하는 급격한 벤치마크 포화 (benchmark saturation)를 완화하기 위해 작업 변형을 도출하는 일반적인 방법을 제공합니다. 우리는 인간이 설계한 파이프라인 (human-engineered pipelines), 최상급 파이프라인 (best-of-breed pipeline), 그리고 LLM 기반 파이프라인 (LLM-based pipeline)을 사용하여 이 벤치마크를 검증합니다. 검증 결과, 이 벤치마크가 데이터 통합 파이프라인의 단계별 성능뿐만 아니라 엔드투엔드 성능을 측정하는 데 유용함을 입증하였습니다. 모든 벤치마크 산출물 (artifacts)은 공개적으로 다운로드할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MaDI-Bench: 엔드투엔드(End-to-End) 데이터 통합 벤치마크

요약

핵심 포인트

댓글