arXiv논문2026. 06. 30. 13:02

실수를 통한 학습: 자율 주행을 위한 Rollout-Retrieval 평생 정책 학습 (Rollout-Retrieval Lifelong

요약

자율 주행 정책이 자신의 실수를 통해 지속적으로 학습할 수 있도록 돕는 R²LPL 프레임워크를 제안합니다. 이 방식은 폐쇄 루프 환경에서의 실수를 교정 가능한 지식으로 변환하여, 기존 지식을 유지하면서도 롱테일 시나리오에 대한 대응 능력을 강화합니다.

핵심 포인트

실수를 통해 교정 지식을 축적하는 평생 학습 프레임워크 제안
회복 가능한 실수를 샘플 효율적인 지도 학습 지식으로 전환
nuPlan 벤치마크의 도전적인 시나리오에서 SOTA 성능 달성
기존 지식 유지와 새로운 상황 적응 사이의 병목 현상 해결

자율 주행 정책은 배포 과정에서 점점 더 다양하고 롱테일(long-tail)적인 교통 상황에 노출됨에 따라 지속적으로 개선될 수 있어야 합니다. 그러나 대부분의 학습 기반 정책은 전문가의 시연(expert demonstrations)을 통해 훈련되거나 미세 조정(fine-tuning)된 후, 도전적인 폐쇄 루프(closed-loop) 시나리오를 처리하기 위해 주로 일반화(generalization)에 의존하며, 이러한 시나리오에서 노출된 실수를 수정하고 유지하는 명시적인 메커니즘이 부족합니다. 본 논문은 평생 학습(lifelong learning) 관점에서 자율 주행 정책 개선을 연구합니다: 사전 훈련된 정책이 이전에 습득한 주행 능력을 유지하면서, 자신의 실수로부터 도출된 교정 지식(corrective knowledge)을 축적함으로써 지속적으로 개선될 수 있는가? 이 질문에 답하기 위해, 우리는 회복 가능한 정책 유도 실수(policy-induced mistakes)로부터 교정 대상(corrective targets)을 검색하고, 결과적으로 얻은 지식을 평생 정책 학습을 통해 유지하는 정책 학습 프레임워크인 Rollout-Retrieval Lifelong Policy Learning (R$^2$LPL)을 제안합니다. R$^2$LPL은 지속적인 정책 개선의 핵심 병목 현상을 해결합니다: 폐쇄 루프 실수는 정책이 취약한 부분을 드러내지만, 정책이 무엇을 배워야 하는지를 직접적으로 지정하지는 않습니다. R$^2$LPL은 회복 가능한 실수 관련 상태를 필터링하고 실행 가능한 교정 대상을 검색함으로써, 희소한 실패 증거를 안정적이고 샘플 효율적인(sample-efficient) 정책 개선을 위한 조밀한 지도 학습 지식(supervised knowledge)으로 전환합니다. 우리는 대규모 폐쇄 루프 nuPlan 벤치마크에서 R$^2$LPL을 평가합니다. 단 몇 번의 롤아웃(rollout) 및 지속 학습(continual-learning) 사이클만으로, R$^2$LPL은 초기 성능이 보통 수준인 학습 기반 플래너를 평가된 벤치마크 전반에서, 특히 도전적이고 롱테일적인 Test14-hard 분할에서 최첨단(state-of-the-art) 성능으로 끌어올립니다. 이러한 결과는 지속적인 정책 개선을 위해 회복 가능한 폐쇄 루프 실수를 교정 지식으로 변환하는 R$^2$LPL의 효과를 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

실수를 통한 학습: 자율 주행을 위한 Rollout-Retrieval 평생 정책 학습 (Rollout-Retrieval Lifelong

요약

핵심 포인트

댓글