arXiv논문2026. 05. 21. 11:53

DeCoR: 강화학습 (Reinforcement Learning)을 이용한 도시 도로의 설계 및 제어 공동 최적화

요약

DeCoR은 강화학습을 활용하여 도시의 횡단보도 배치와 신호 제어를 동시에 최적화하는 2단계 프레임워크입니다. 생성 정책을 통해 보행자 네트워크를 설계하고, 공유된 제어 정책으로 적응형 신호 타이밍을 학습하여 보행자와 차량의 지연을 최소화합니다. 실제 도시 회랑 데이터를 적용한 결과, 보행자 대기 시간을 79%, 차량 대기 시간을 65% 감소시키는 성과를 보였습니다.

핵심 포인트

횡단보도 배치와 신호 제어를 통합적으로 최적화하는 2단계 강화학습 프레임워크 제안
가우시안 혼합 모델(Gaussian mixture model)을 활용한 횡단보도 위치 및 너비 샘플링
보행자 대기 시간 79% 및 차량 대기 시간 65% 감소 효과 입증
학습 범위를 벗어난 수요에 대한 일반화 능력 및 배치 변경에 대한 강건성 확보

현대의 비전 시스템 (Vision systems)은 도시의 행위자들을 대규모로 탐지, 추적 및 예측할 수 있지만, 인지 출력값을 도시 설계로 변환하는 작업은 여전히 제한적입니다. 본 논문에서는 흐름 관측치 (flow observations)를 활용하여 횡단보도 배치와 네트워크 수준의 신호 제어를 공동 최적화하는 2단계 강화학습 (Reinforcement Learning) 프레임워크인 DeCoR을 소개합니다. 설계 단계에서는 보행자 네트워크를 그래프 (Graph)로 인코딩하고, 횡단보도의 위치와 너비에 대한 가우시안 혼합 모델 (Gaussian mixture model)을 매개변수화하는 생성 정책 (Generative policy)을 학습하여, 이를 통해 새로운 횡단보도들을 샘플링합니다. 각 배치에 대해, 공유된 제어 정책 (Control policy)은 보행자와 차량의 지연을 최소화하기 위해 적응형 신호 타이밍 (Adaptive signal timings)을 학습합니다. 비디오 및 Wi-Fi 로그로부터 감지된 수요가 존재하는 750m 길이의 실제 도시 회랑 (Urban corridor)에서, DeCoR은 기존 구성보다 더 적은 수의 횡단보도를 사용하면서도 보행자가 가장 가까운 횡단보도에 도착하는 시간을 23% 단축하는 배치를 학습합니다. 제어 측면에서 DeCoR은 고정 시간 신호 제어 (Fixed-time signalization) 대비 보행자 대기 시간은 79%, 차량 대기 시간은 65%를 각각 감소시킵니다. 또한, 이 제어 정책은 학습 범위를 벗어난 수요에 대해서도 일반화되며, 재학습 없이도 배치 변경에 대해 강건함 (Robust)을 유지합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DeCoR: 강화학습 (Reinforcement Learning)을 이용한 도시 도로의 설계 및 제어 공동 최적화

요약

핵심 포인트

댓글