arXiv논문2026. 05. 26. 12:52

CITYREP: 도시, 작업 및 모달리티 전반에 걸친 도시 표현 학습을 위한 통합 벤치마크

요약

도시 표현 학습의 공정한 평가를 위해 제안된 통합 벤치마크 CityRep을 소개합니다. 기존의 무작위 분할 방식이 초래하는 공간적 누수 문제를 해결하기 위해 블록 기반 공간 분할 프로토콜을 도입했습니다.

핵심 포인트

공간적 누수를 방지하는 블록 기반 공간 분할 프로토콜 제안
8개 도시와 8개 작업을 아우르는 다중 모달리티 벤치마크 구축
기존 무작위 분할 방식이 모델 성능을 부풀릴 수 있음을 입증
도시 파운데이션 모델 연구를 위한 재현 가능한 평가 도구 제공

도시 표현 학습 (Urban representation learning)은 복잡한 도시 환경을 다양한 다운스트림 작업 (downstream tasks) 및 신흥 도시 파운데이션 모델 (urban foundation models)을 위한 범용 임베딩 (embeddings)으로 인코딩합니다. 그러나 현재의 평가는 일반적으로 한두 개의 도시와 작업에 집중하고, 공간적 누수 (spatial leakage)를 유발하는 무작위 분할 (random splits)에 의존하고 있어 평가가 제한적입니다. 이는 성능을 부풀리고 교차 지역 일반화 (cross-location generalization) 및 공정한 비교를 지원하는 데 취약하게 만듭니다. 이를 해결하기 위해, 우리는 공간적으로 구조화된 분할 (spatially structured splits)을 사용하여 데이터 모달리티 (modalities), 도시 및 작업 전반에 걸쳐 도시 표현을 평가하는 통합 벤치마크인 CityRep을 제안합니다. CityRep은 세 가지 핵심 구성 요소로 이루어집니다: (1) 표준화된 정렬 모듈 (alignment module)을 통해 이질적인 도시 표현을 지원하는 공간 단위 불가지론적 (spatial unit-agnostic) 평가 프레임워크, (2) 공간적 누수를 완화하고 엄격한 모델 비교를 가능하게 하기 위해 블록 기반 공간 분할 (block-based spatial splits)을 사용하는 통합 평가 프로토콜, (3) 회귀 (regression), 분류 (classification) 및 분포 예측 (distribution prediction)에 걸쳐 8개 도시와 8개 작업을 아우르는 확장 가능한 다중 도시, 다중 작업 벤치마크 스위트입니다. 우리는 11개의 대표적인 도시 표현 모델을 평가합니다. 결과에 따르면 성능은 분할 프로토콜 (split protocol)에 매우 민감하며, 무작위 분할은 점수를 부풀리고 모델 순위를 변경합니다. 또한 도시와 작업 전반에 걸쳐 상당한 변동성을 관찰하였으며, 이는 일반화 인지 평가 (generalization-aware evaluation)의 필요성을 강조합니다. CityRep은 공정한 비교를 촉진하고 도시 파운데이션 모델을 향한 도시 표현 학습의 미래 연구를 지원하기 위해 데이터셋, 평가 파이프라인 및 진단 도구를 포함한 재현 가능한 벤치마크로 공개됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

CITYREP: 도시, 작업 및 모달리티 전반에 걸친 도시 표현 학습을 위한 통합 벤치마크

요약

핵심 포인트

댓글