본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 11:14

클라우드 네이티브 ELT 파이프라인의 자동화된 데이터 품질 보증을 위한 다층 테스트 프레임워크

요약

클라우드 네이티브 ELT 파이프라인의 데이터 품질을 보장하기 위해 오케스트레이션, dbt, LLM 기반 의미론적 테스트, 교차 스토어 검증을 통합한 다층 테스트 프레임워크를 제안합니다. 실험 결과, LLM 증강 구성을 통해 기존 수동 방식 대비 이상치 탐지율을 128.57% 향상시켰으며, DuckDB와 Snowflake 간의 데이터 일관성을 성공적으로 검증했습니다.

핵심 포인트

  • 오케스트레이션, dbt, LLM, 교차 스토어 검증을 결합한 통합 테스트 프레임워크 구축
  • LLM을 활용한 의미론적 테스트 생성으로 데이터 검증 범위의 실질적 강화
  • 수동 방식 대비 이상치 탐지율 128.57% 향상 및 16개 이상치 전량 탐지
  • DuckDB와 Snowflake 간의 데이터 마이그레이션 및 일관성 검증 성공
  • LLM 생성 테스트의 유용성 및 실행 가능성에 대한 정량적 분석 수행

이질적인 데이터 소스, 진화하는 스키마(Schema), 그리고 다중 백엔드 실행 환경으로 인해 클라우드 네이티브 추출-로드-변환 (ELT) 파이프라인에서 데이터 품질을 보장하는 것이 점점 더 어려워지고 있습니다. 본 논문은 오케스트레이션 레벨의 검증, 선언적 dbt 테스트, 대규모 언어 모델 (LLM) 기반의 의미론적 테스트 생성, 그리고 Apache Airflow를 통해 오케스트레이션되는 DuckDB와 Snowflake 간의 교차 스토어 일관성 검사를 통합하는 통합된 다층 테스트 프레임워크를 제시합니다. 제어된 이상치 주입 (Anomaly-injection) 실험 결과, 수동으로만 수행한 베이스라인은 주입된 16개의 이상치 중 7개만을 탐지했습니다. 반면, 수동으로 확장된 비교군과 제안된 LLM 증강 구성은 16개 모두를 탐지하여 베이스라인 대비 탐지율에서 128.57%의 상대적 향상을 보여주었습니다. 마이그레이션 후 교차 스토어 검증을 통해 큐레이션된 세 개의 테이블 모두에서 정확한 일치함을 확인했습니다. LLM이 생성한 25개의 테스트 어설션 (Assertion) 중 9개는 유용함, 4개는 중복됨, 12개는 실행 가능하지만 가치가 낮음으로 분류되었습니다. 전체 워크플로우는 8개의 계측된 파이프라인 단계에 걸쳐 106.58초 동안 실행되었습니다. 이러한 결과는 LLM 기반의 의미론적 테스트 합성이 운영 측면에서 실용성을 유지하면서도 검증 범위를 실질적으로 강화할 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0