arXiv논문2026. 06. 19. 10:43

Lagrange: 일반화된 엔드투엔드 (End-to-End) 주행을 위한 오픈 보캐블러리 (Open-Vocabulary) 및 에너지 기반 희소

요약

Lagrange는 오픈 월드 자율 주행을 위해 제안된 새로운 엔드투엔드 프레임워크입니다. VLM을 활용한 오픈 보캐블러리 인지와 에너지 기반의 희소한 계획 방식을 결합하여, 계산 효율성과 차량 운동학적 준수 능력을 동시에 확보했습니다.

핵심 포인트

VLM 기반의 클래스 불가지론적 객체 제안 및 의미론적 토큰 인코딩
의도 기반 마스크 교차 주의 모듈을 통한 시간적 엔티티 필터링
암시적 연속 에너지 필드와 라그랑주 작용 최소화 기반의 의사결정
nuScenes 및 CODA 벤치마크를 통한 견고함과 실행 가능성 입증

엔드투엔드 (End-to-End) 자율 주행을 복잡한 오픈 월드 (Open-world) 환경으로 확장하기 위해서는 이상 상황 (Anomalous scenarios)에 일반화될 수 있는 인지 모델과 운동학적으로 유효한 궤적을 생성하는 플래너 (Planner)가 필요합니다. 기존의 패러다임은 표현 효율성 (Representational efficiency)과 일반화 능력 (Generalization capacity) 사이에서 뚜렷한 이분법적 문제에 직면해 있습니다. 밀집 모델 (Dense models, 예: 점유 네트워크 (Occupancy networks))은 기하학적으로는 견고하지만, 심각한 계산 병목 현상을 초래하며 고차원적인 의미론적 추론 (Semantic reasoning)에 어려움을 겪습니다. 반대로, 희소 쿼리 기반 플래너 (Sparse, query-based planners)는 효율적이지만 폐쇄 집합 (Closed-set) 정의에 의존하기 때문에 분포 외 (Out-of-distribution, OOD) 이벤트에 취약합니다. 최근의 시각-언어-행동 (Vision-Language-Action, VLA) 모델들이 오픈 보캐블러리 (Open-vocabulary) 추론을 제공하지만, 이들의 자기회귀적 (Autoregressive)이고 이산적인 토큰 생성 방식은 차량 역학 (Vehicle dynamics)의 연속적이고 고주파적인 제어 요구 사항과 근본적으로 충돌합니다.

이를 해결하기 위해, 우리는 마스크 잠재 필드 (Masked Latent Fields, MLF)를 기반으로 하는 오픈 보캐블러리 및 계산적으로 희소한 주행 프레임워크인 Lagrange를 제안합니다. Lagrange는 밀집 볼륨 재구성 (Dense volumetric reconstructions)이나 폐쇄 집합 쿼리 메커니즘에 의존하는 대신, 시각-언어 모델 (Vision-Language Models, VLMs)을 활용하여 클래스 불가지론적 (Class-agnostic) 객체 제안을 연속적인 의미론적 시각 토큰으로 인코딩합니다. 우리는 무관한 엔티티를 시간적으로 필터링하는 의도 기반 마스크 교차 주의 (Intent-driven masked cross-attention) 모듈을 도입하여, 어텐션이 적용된 토큰을 공간 좌표상에 정의된 암시적 연속 에너지 필드 (Implicit continuous energy field)로 디코딩합니다. 의사결정을 이 에너지 필드에 걸친 라그랑주 작용 최소화 (Lagrangian action minimization) 문제로 구성함으로써, 충돌 회피를 실행하는 동시에 차량 운동학 (Vehicle kinematics)을 엄격하게 준수하도록 합니다. 표준 (nuScenes) 및 롱테일 (Long-tail, CODA) 벤치마크 모두에 대한 광범위한 오프라인 평가를 통해, Lagrange가 견고하고 해석 가능하며 운동학적으로 실행 가능한 오픈 월드 자율 주행을 위한 유망한 프레임워크임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Lagrange: 일반화된 엔드투엔드 (End-to-End) 주행을 위한 오픈 보캐블러리 (Open-Vocabulary) 및 에너지 기반 희소

요약

핵심 포인트

댓글