스키마 불가지론적 프로세스 트레이스 구축: 원시 테이블에서 실행 동작까지
요약
스키마 변화가 잦은 현대 OLTP 환경에서 원시 관계형 데이터로부터 프로세스 실행 트레이스를 자동 재구성하는 스키마 불가지론적 파이프라인을 제안합니다. 통계적 신호와 Temporal Convolutional Network를 활용하여 테이블 간 연결을 발견하고 이벤트 순서를 학습합니다.
핵심 포인트
- 스키마 및 명시적 키 의존성을 제거한 자동 재구성 파이프라인 제안
- 통계적 신호를 통한 테이블 간 연결 및 이벤트 순서 조립
- Temporal Convolutional Network를 이용한 시스템 흐름 패턴 학습
- 벤치마크 결과 85%의 이벤트 예측 정확도 및 82%의 선행 관계 복구율 달성
전통적인 정보 시스템 (IS) 엔지니어링은 안정적인 스키마 (schema), 명시적인 키 (key), 그리고 큐레이션된 이벤트 로그 (event logs)를 가정합니다. 현대의 OLTP 환경에서는 스키마가 변동되고(drift), 키가 희소하며, 실행 트레이스 (execution traces)가 느슨하게 연결된 테이블들에 분산되어 있어, 수동적인 프로세스 트레이스 구축은 비용이 많이 들고 오류가 발생하기 쉽습니다. 본 연구에서는 원시 관계형 데이터 (raw relational data)로부터 프로세스 실행 트레이스를 직접 자동 재구성하는 스키마 불가지론적 (schema-agnostic) 파이프라인을 제안합니다. 이 파이프라인은 (i) 키 (key)나 타임스탬프 (timestamp)처럼 작동하는 컬럼을 식별하고, (ii) 미리 정의된 스키마 대신 통계적 신호를 사용하여 테이블 간의 연결을 발견하며, (iii) 여러 날짜 필드를 수용하면서 각 케이스 (case)에 대한 이벤트를 조립하고 순서를 정하며, (iv) 장기 의존성 (long-range dependencies)과 패턴을 모델링하는 시간적 합성곱 신경망 (Temporal Convolutional Network)을 사용하여 시스템 전반의 발생 가능한 순서 및 흐름 관계를 학습합니다. TPC-H/E 벤치마크, 합성 코퍼스 (synthetic corpora), 그리고 실제 산업 데이터셋에 대한 평가 결과, 본 파이프라인은 높은 충실도의 이벤트 트레이스와 정확한 트레이스 순서를 재구성하며, 85%의 정확도로 다음 이벤트를 예측하고 정답(ground-truth) 선행 관계의 약 82%를 복구함을 보여주었습니다. 미리 정의된 스키마, ER 다이어그램 (ER diagrams), 도메인 템플릿 (domain templates)에 대한 의존성을 제거함으로써, 본 연구는 역동적이고 지속적으로 진화하는 IS 환경에서 실행 동작의 자동 재구성을 위한 일반화 가능하고 확장 가능한 경로를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기