폐쇄 루프 교통 모델링에서 국소적 관찰과 전역적 시뮬레이션 간의 간극 해소
요약
자아 중심 주행 로그로 학습된 교통 시뮬레이터가 전역적 환경에서 발생하는 문맥 불일치 문제를 해결하기 위한 CRAFT 프레임워크를 제안합니다. 자기 지도 학습과 선호도 가이드 정렬을 통해 시뮬레이션의 현실성을 높이고 충돌 및 법규 위반을 크게 감소시켰습니다.
핵심 포인트
- 국소적 관찰과 전역적 시뮬레이션 간의 문맥 불일치 문제 해결
- CRAFT 프레임워크를 통한 자기 지도 학습 기반 실패 발견
- 테스트 시간 정렬(Test-time alignment)을 통한 행동 재가중치 부여
- 충돌 31.2%, 교통 법규 위반 33.2% 감소 효과 입증
자아 중심(ego-centric) 주행 로그로 학습된 자기회귀(autoregressive) 교통 시뮬레이터가 전역적으로 관찰 가능한 폐쇄 루프(closed-loop) 환경에 배치될 때, 국소적-전역적 문맥 불일치(local-to-global context mismatch)가 발생합니다. 이러한 로그에서 자차(ego vehicle)는 풍부한 국소적 관찰(local observations)을 갖는 반면, 주변 에이전트들은 인지 한계 및 폐쇄(occlusions)로 인해 부분적으로만 관찰됩니다. 그 결과, 시뮬레이터는 로그 기반 학습 시에는 숨겨져 있다가 폐쇄 루프 롤아웃(rollouts) 중에 나타나는 불완전한 문맥-행동(context-action) 매핑을 학습할 수 있으며, 이는 비정상적인 정지, 안전하지 않은 상호작용, 규칙 위반과 같은 비현실적인 행동으로 이어집니다.
우리는 자기 지도 학습 기반의 실패 발견(self-supervised failure discovery)과 선호도 가이드 테스트 시간 정렬(preference-guided test-time alignment)을 통해 이러한 불일치를 완화하는 교통 시뮬레이션을 위한 문맥 참조 정렬 프레임워크인 CRAFT(Contextual pReference Alignment Framework for Traffic Simulation)를 제안합니다. CRAFT는 기본 시뮬레이터를 전역적으로 관찰 가능한 샌드박스(sandbox)로 취급하여, 로그된 초기 상태로부터 다양한 'what-if' 롤아웃을 생성함으로써 문맥으로 인해 유발되는 실패를 노출합니다. 이러한 실패는 인간과 정렬된 주행 사전 지식(driving priors)을 바탕으로 근거를 마련하며, 문맥 선호도 평가기(Contextual Preference Evaluator, CPE)를 학습시키기 위한 선호도 감독(preference supervision)으로 변환됩니다. 추론 시점에 CPE는 완전한 장면 문맥(scene context) 하에서 후보 행동에 점수를 매기고, 자기회귀 디코딩(autoregressive decoding)을 전역적으로 일관된 행동으로 재가중치(reweights)를 부여하는 플러그인 정렬 모듈로 작동합니다. CRAFT는 기본 시뮬레이터를 재학습하지 않고도 이러한 국소적-전역적 문맥 편향(local-to-global contextual bias)을 완화하여 충돌을 31.2% 감소시키고 교통 법규 위반을 33.2% 감소시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기