폐쇄 루프 교통 모델링에서 국소적 관찰과 전역적 시뮬레이션 간의 간극 해소

자아 중심(ego-centric) 주행 로그로 학습된 자기회귀(autoregressive) 교통 시뮬레이터가 전역적으로 관찰 가능한 폐쇄 루프(closed-loop) 환경에 배치될 때, 국소적-전역적 문맥 불일치(local-to-global context mismatch)가 발생합니다. 이러한 로그에서 자차(ego vehicle)는 풍부한 국소적 관찰(local observations)을 갖는 반면, 주변 에이전트들은 인지 한계 및 폐쇄(occlusions)로 인해 부분적으로만 관찰됩니다. 그 결과, 시뮬레이터는 로그 기반 학습 시에는 숨겨져 있다가 폐쇄 루프 롤아웃(rollouts) 중에 나타나는 불완전한 문맥-행동(context-action) 매핑을 학습할 수 있으며, 이는 비정상적인 정지, 안전하지 않은 상호작용, 규칙 위반과 같은 비현실적인 행동으로 이어집니다.

우리는 자기 지도 학습 기반의 실패 발견(self-supervised failure discovery)과 선호도 가이드 테스트 시간 정렬(preference-guided test-time alignment)을 통해 이러한 불일치를 완화하는 교통 시뮬레이션을 위한 문맥 참조 정렬 프레임워크인 CRAFT(Contextual pReference Alignment Framework for Traffic Simulation)를 제안합니다. CRAFT는 기본 시뮬레이터를 전역적으로 관찰 가능한 샌드박스(sandbox)로 취급하여, 로그된 초기 상태로부터 다양한 'what-if' 롤아웃을 생성함으로써 문맥으로 인해 유발되는 실패를 노출합니다. 이러한 실패는 인간과 정렬된 주행 사전 지식(driving priors)을 바탕으로 근거를 마련하며, 문맥 선호도 평가기(Contextual Preference Evaluator, CPE)를 학습시키기 위한 선호도 감독(preference supervision)으로 변환됩니다. 추론 시점에 CPE는 완전한 장면 문맥(scene context) 하에서 후보 행동에 점수를 매기고, 자기회귀 디코딩(autoregressive decoding)을 전역적으로 일관된 행동으로 재가중치(reweights)를 부여하는 플러그인 정렬 모듈로 작동합니다. CRAFT는 기본 시뮬레이터를 재학습하지 않고도 이러한 국소적-전역적 문맥 편향(local-to-global contextual bias)을 완화하여 충돌을 31.2% 감소시키고 교통 법규 위반을 33.2% 감소시킵니다.

Insights

폐쇄 루프 교통 모델링에서 국소적 관찰과 전역적 시뮬레이션 간의 간극 해소

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들