arXiv논문2026. 05. 21. 10:52

생각하기 위한 증류, 행동하기 위한 예측: 자율 주행을 위한 인지-물리 강화학습 (CoPhy)

요약

CoPhy는 자율 주행의 한계를 극복하기 위해 인지적 토대와 물리적 예측 환경을 결합한 강화학습 프레임워크입니다. VLM 지식을 BEV 인코더로 증류하여 추론 비용을 낮추고, 자기회귀 BEV 월드 모델을 통해 미래 상황을 예측하며, GRPO 기반의 이중 보상 메커니즘으로 안전성과 의도 준수성을 동시에 확보합니다.

핵심 포인트

VLM 지식을 BEV 인코더로 증류하여 추론 비용 없이 인지 능력을 유지하고 언어 명령 인터페이스를 제공함
자기회귀 BEV 월드 모델을 구축하여 후보 행동에 따른 미래 시맨틱 맵을 예측하는 물리적 샌드박스 역할 수행
물리적 보상(안전 제약)과 인지적 보상(의도 준수)을 결합한 이중 보상 메커니즘 기반의 GRPO 최적화 적용
NAVSIM 벤치마크에서 SOTA 성능을 달성하며 사용자 정의 언어 지침을 통한 유연한 제어 가능성을 입증함

현재의 엔드투엔드 (end-to-end) 자율 주행 모델들은 모방 학습 (imitation learning)의 행동 복제 (behavioral cloning) 한계로 인해 근본적인 제약을 받고 있습니다. 강화학습 (reinforcement learning)이 더 스마트한 자율성을 향한 경로를 제공하기는 하지만, 이를 위해서는 두 가지 결여된 인프라가 필요합니다: (1) 교통 의미론 (traffic semantics)과 주행 의도 (driving intent)를 이해하는 인지적 토대 (cognitive foundation), 그리고 (2) 후보 행동들의 결과를 예측할 수 있는 선견지명을 가진 물리적 환경 (foresighted physical environment)입니다. 이를 위해, 우리는 자율 주행을 위한 인지-물리 (Cognitive-Physical) 강화학습 프레임워크인 CoPhy를 제안합니다. '생각하기 위해 증류(Distill to think)'하기 위해, 우리는 VLM 지식을 BEV 인코더 (BEV encoder)로 증류한 다음 VLM을 완전히 제거하여, 추론 비용(inference cost) 없이 인지 능력을 유지하는 동시에 인지 채널을 선택적인 인간 언어 명령을 위한 플러그형 인터페이스로 해방시킵니다. '행동하기 위해 예측(Foresee to act)'하기 위해, 우리는 후보 행동을 조건으로 미래의 시맨틱 맵 (semantic maps)을 명시적으로 예측하는 자기회귀 (auto-regressive) BEV 월드 모델 (world model)을 구축하며, 이는 안전 지표 (safety metrics)가 직접적으로 도출되는 해석 가능한 물리적 샌드박스 (physical sandbox) 역할을 합니다. 이러한 이중 인프라를 기반으로, 우리는 새로운 이중 보상 (dual-reward) 메커니즘을 갖춘 GRPO를 통해 주행 정책 (driving policy)을 최적화합니다: BEV 롤아웃 (rollouts)에서 도출된 물리적 보상 (physical reward)은 엄격한 안전 제약 조건을 강제하며, 언어 정렬 스코어러 (language-aligned scorer)로부터 오는 인지적 보상 (cognitive reward)은 의도 준수 (intent compliance)를 보장합니다. 광범위한 실험을 통해 CoPhy가 NAVSIM v1 및 v2 벤치마크에서 최첨단 (state-of-the-art) 결과를 달성할 뿐만 아니라, 인지적으로 정보가 제공된 장면 준수 (scene compliance)와 사용자 정의 언어 지침을 통한 유연한 의도 제어를 통해 더 안전한 주행을 가능하게 함을 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

생각하기 위한 증류, 행동하기 위한 예측: 자율 주행을 위한 인지-물리 강화학습 (CoPhy)

요약

핵심 포인트

댓글