TransitLM: 지도 없이 대중교통 경로를 생성하기 위한 대규모 데이터셋 및 벤치마크
요약
지도 인프라 없이 대중교통 경로를 생성할 수 있는 대규모 데이터셋 및 벤치마크인 TransitLM을 소개합니다. 중국 4개 도시의 1,300만 개 이상의 경로 기록을 포함하며, LLM이 지도 없이도 GPS 좌표를 정류장에 암묵적으로 접지하여 경로를 생성할 수 있음을 입증했습니다.
핵심 포인트
- 지도 없이 경로 계획이 가능한 TransitLM 데이터셋 공개
- 1,300만 개 이상의 대중교통 경로 기록 포함
- LLM의 암묵적 GPS-정류장 접지 능력 확인
- 엔드 투 엔드 지도 없는 경로 생성 가능성 입증
전통적인 대중교통 경로 계획 (transit route planning)은 구조화된 지도 인프라 (map infrastructure)와 복잡한 경로 탐색 엔진 (routing engines)에 의존해 왔으며, 이러한 의존성을 우회하도록 모델을 학습시키는 것을 지원하는 기존 데이터셋은 존재하지 않습니다. 본 논문에서는 120,845개의 정류장과 13,666개의 노선을 포함하는 중국 4개 도시의 1,300만 개 이상의 대중교통 경로 계획 기록을 담은 대규모 데이터셋인 TransitLM을 제시합니다. 이 데이터셋은 지속적 사전 학습 코퍼스 (continual pre-training corpus) 및 상호 보완적인 지표를 가진 세 가지 평가 작업에 대한 벤치마크 데이터로 공개되었습니다. 실험 결과, TransitLM으로 학습된 대규모 언어 모델 (LLM)은 높은 정확도로 구조적으로 유효한 경로를 생성하며, 명시적인 매핑 (mapping) 없이도 임의의 GPS 좌표를 적절한 정류장에 암묵적으로 접지 (grounding) 시킴을 보여주었습니다. 이러한 결과는 대중교통 경로 계획이 전적으로 데이터로부터 학습될 수 있음을 입증하며, 출발지-목적지 (origin-destination) 정보로부터 직접적인 엔드 투 엔드 (end-to-end), 지도 없는 (map-free) 경로 생성을 가능하게 합니다. 데이터셋과 벤치마크는 https://huggingface.co/datasets/GD-ML/TransitLM 에서 확인할 수 있으며, 평가 코드는 https://github.com/HotTricker/TransitLM 에서 제공됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기