실수를 통한 학습: 자율 주행을 위한 Rollout-Retrieval 평생 정책 학습 (Rollout-Retrieval Lifelong
요약
자율 주행 정책이 자신의 실수를 통해 지속적으로 학습할 수 있도록 돕는 R²LPL 프레임워크를 제안합니다. 이 방식은 폐쇄 루프 환경에서의 실수를 교정 가능한 지식으로 변환하여, 기존 지식을 유지하면서도 롱테일 시나리오에 대한 대응 능력을 강화합니다.
핵심 포인트
- 실수를 통해 교정 지식을 축적하는 평생 학습 프레임워크 제안
- 회복 가능한 실수를 샘플 효율적인 지도 학습 지식으로 전환
- nuPlan 벤치마크의 도전적인 시나리오에서 SOTA 성능 달성
- 기존 지식 유지와 새로운 상황 적응 사이의 병목 현상 해결
자율 주행 정책은 배포 과정에서 점점 더 다양하고 롱테일(long-tail)적인 교통 상황에 노출됨에 따라 지속적으로 개선될 수 있어야 합니다. 그러나 대부분의 학습 기반 정책은 전문가의 시연(expert demonstrations)을 통해 훈련되거나 미세 조정(fine-tuning)된 후, 도전적인 폐쇄 루프(closed-loop) 시나리오를 처리하기 위해 주로 일반화(generalization)에 의존하며, 이러한 시나리오에서 노출된 실수를 수정하고 유지하는 명시적인 메커니즘이 부족합니다. 본 논문은 평생 학습(lifelong learning) 관점에서 자율 주행 정책 개선을 연구합니다: 사전 훈련된 정책이 이전에 습득한 주행 능력을 유지하면서, 자신의 실수로부터 도출된 교정 지식(corrective knowledge)을 축적함으로써 지속적으로 개선될 수 있는가? 이 질문에 답하기 위해, 우리는 회복 가능한 정책 유도 실수(policy-induced mistakes)로부터 교정 대상(corrective targets)을 검색하고, 결과적으로 얻은 지식을 평생 정책 학습을 통해 유지하는 정책 학습 프레임워크인 Rollout-Retrieval Lifelong Policy Learning (R$^2$LPL)을 제안합니다. R$^2$LPL은 지속적인 정책 개선의 핵심 병목 현상을 해결합니다: 폐쇄 루프 실수는 정책이 취약한 부분을 드러내지만, 정책이 무엇을 배워야 하는지를 직접적으로 지정하지는 않습니다. R$^2$LPL은 회복 가능한 실수 관련 상태를 필터링하고 실행 가능한 교정 대상을 검색함으로써, 희소한 실패 증거를 안정적이고 샘플 효율적인(sample-efficient) 정책 개선을 위한 조밀한 지도 학습 지식(supervised knowledge)으로 전환합니다. 우리는 대규모 폐쇄 루프 nuPlan 벤치마크에서 R$^2$LPL을 평가합니다. 단 몇 번의 롤아웃(rollout) 및 지속 학습(continual-learning) 사이클만으로, R$^2$LPL은 초기 성능이 보통 수준인 학습 기반 플래너를 평가된 벤치마크 전반에서, 특히 도전적이고 롱테일적인 Test14-hard 분할에서 최첨단(state-of-the-art) 성능으로 끌어올립니다. 이러한 결과는 지속적인 정책 개선을 위해 회복 가능한 폐쇄 루프 실수를 교정 지식으로 변환하는 R$^2$LPL의 효과를 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기