arXiv논문2026. 04. 29. 16:43

DGLight: 교통 신호 제어용 대형 언어 모델의 DQN 기반 GRPO 미세 조정

요약

DGLight는 사전 학습된 대형 언어 모델(LLM)을 교통 신호 제어(TSC)에 효과적으로 적용하기 위한 새로운 강화학습 프레임워크입니다. 이 방법은 CoLight 기반 DQN 비평가를 훈련하여 교차로 상태의 행동 가치를 추정하고, 이를 활용해 Group Relative Policy Optimization (GRPO)를 통해 LLM 정책을 최적화합니다. DGLight는 해석 가능한 추론 과정을 거쳐 교통 신호를 결정하며, 실제 도시 데이터셋에서 강력한 성능과 우수한 전이 학습 능력을 입증했습니다.

핵심 포인트

DGLight는 LLM의 생성 능력과 강화학습(RL)의 최적화 능력을 결합하여 TSC 문제를 해결합니다.
핵심 구성 요소는 CoLight 기반 DQN 비평가와 Group Relative Policy Optimization (GRPO)입니다.
이 프레임워크는 원시 환경 보상 대신 해석 가능한 추론 흔적을 사용하여 교통 상태를 매핑하고 신호를 결정합니다.
실제 도시 벤치마크(Jinan, Hangzhou)에서 기존 LLM 기반 제어기 중 가장 강력한 성능을 보여주었으며 전이 학습 능력이 뛰어납니다.

교통 신호 제어 (TSC) 는 혼잡을 줄이고 도시 이동성을 유지하는 데 핵심적인 역할을 합니다. 본 논문은 사전 학습된 대형 언어 모델을 TSC(교통 신호 제어) 에 적응시키기 위한 비평가 (critic) 가이드 강화학습 프레임워크인 DGLight 를 소개합니다. DGLight 는 먼저 구조화된 교차로 상태로부터 교통 인식 행동 가치를 추정하기 위해 CoLight 기반 심층 Q-네트워크 (Deep Q-Network, DQN) 비평가를 훈련한 후, 동결된 비평가를 사용하여 후보 언어 모델 행동을 점수화하고 Group Relative Policy Optimization (GRPO) 로 정책을 최적화합니다. 결과적으로 생성된 제어기는 밀집된 상태별 감독 (dense per-state supervision) 을 통해 학습함으로써 원시 누적 환경 보상 대신 해석 가능한 추론 흔적과 신호 결정으로 교통 상태를 매핑합니다. Jinan 과 Hangzhou 를 아우르는 TSC 벤치마크 실험에서 DGLight 는 비교 대상 LLM 기반 제어기 중 전반적으로 가장 강력한 방법으로 나타났으며, 강력한 RL 베이스라인과도 경쟁력을 유지하고, 비평가를 피팅하는 데 사용되지 않은 도시 데이터셋으로도 잘 전이 (transfer) 됩니다. 정성적 예시 또한 모델이 생성한 추론이 해석 가능하며 선택된 신호 단계와 일치함을 보여줍니다. 프로젝트 코드는 $ ext{여기}$에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

DGLight: 교통 신호 제어용 대형 언어 모델의 DQN 기반 GRPO 미세 조정

요약

핵심 포인트

댓글