RIDE: 열차 지연 예측을 위한 공개 데이터셋 및 벤치마크
요약
벨기에 철도 네트워크를 기반으로 한 열차 지연 예측용 공개 데이터셋 및 벤치마크인 RIDE를 소개합니다. 방대한 철도 및 기상 데이터를 포함하며, 모델 간 성능 비교를 위한 표준화된 평가 프로토콜을 제공합니다.
핵심 포인트
- 9,450만 개의 열차 이벤트와 기상 기록 포함
- 재사용 가능한 중간 데이터셋 및 모델 준비형 데이터셋 제공
- GNN 모델이 가장 높은 평균 성능 달성 입증
- 예측 지평 및 지연 변화에 따른 세부 분석 지원
열차 지연 예측 (Train delay prediction)은 승객과 철도 운영자 모두에게 중요한 문제이지만, 표준화된 데이터셋, 예측 대상 및 평가 프로토콜의 부재로 인해 이 분야의 발전 정도를 평가하기가 여전히 어렵습니다. 이러한 격차를 해소하기 위해, 우리는 벨기에 철도 네트워크 전역을 대상으로 구축된 열차 지연 예측을 위한 공개 데이터셋 및 벤치마크인 RIDE를 소개합니다. RIDE는 2023년부터 2025년까지의 9,450만 개의 열차 이벤트, 360만 개의 여정, 그리고 3,570만 개의 기상 기록을 포함합니다. 이는 원시 철도 및 기상 소스로부터 두 가지 공개 버전인 재사용 가능한 중간 관계형 데이터셋 (intermediate relational dataset)과 모델 준비형 벤치마크 데이터셋 (model-ready benchmark datasets)으로 구성된 계층적 데이터 파이프라인으로 조직되었습니다. 이 벤치마크는 예측 작업과 훈련 및 테스트 데이터를 표준화합니다. 또한 모델 간의 직접적인 비교를 지원하는 통합 평가 프로토콜을 제공합니다. 우리는 이 프레임워크를 사용하여 비학습 (non-learning), 통계적 학습 (statistical learning), 그리고 딥러닝 (deep learning) 모델에 대한 최초의 종합적인 비교 평가를 제공합니다. 우리는 학습 기반 방법론이 비학습 모델보다 확실히 우수한 성능을 보임을 입증하였으며, 그래프 신경망 (Graph Neural Networks, GNN)이 가장 높은 평균 성능을 달성한 반면, 가장 강력한 학습 기반 모델들은 서로 비교적 근소한 차이를 유지함을 보여줍니다. 평균 절대 오차 (MAE) 및 평균 제곱근 오차 (RMSE)를 넘어, 이 프레임워크는 예측 지평 (prediction horizon) 및 지연 변화 (delay change)에 따른 세부 분석을 제공하여, 예측 체제 (forecasting regimes) 전반에 걸친 모델 동작에 대한 더욱 상세한 분석을 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기