arXiv논문2026. 05. 20. 12:03

VL-DPO: 선호도 정렬된 자율 주행을 위한 시각-언어 가이드 미세 조정

요약

VL-DPO는 시각-언어 모델(VLM)을 활용하여 자율 주행 모델의 동작 예측을 인간의 선호도에 정렬시키는 새로운 프레임워크입니다. VLM을 제로샷 추론기로 사용하여 선호도 쌍을 자동으로 생성하고, 이를 Direct Preference Optimization(DPO) 방식으로 미세 조정하여 주행 성능을 개선합니다. 실험 결과, 기존 사전 학습 모델 대비 인간 선호도 점수(RFS)는 향상되고 평균 변위 오차(ADE)는 감소하는 성과를 거두었습니다.

핵심 포인트

VLM을 제로샷 추론기로 활용하여 자율 주행 데이터에 대한 선호도 쌍을 자동 생성
Direct Preference Optimization(DPO) 기법을 자율 주행 동작 예측 모델에 적용
Waymo Open End-to-End Driving Dataset(WOD-E2E)을 통한 성능 검증
인간 선호도 점수(RFS) 11.94% 향상 및 평균 변위 오차(ADE) 10.01% 감소 달성

자율 주행 데이터셋의 급격한 성장은 강력한 동작 예측 (motion forecasting) 모델의 스케일링을 가능하게 했습니다. 대규모 사전 학습 (pretraining)은 강력한 성능을 제공하지만, 표준적인 모방 목적 함수 (imitation objective)는 인간의 주행 선호도에 담긴 복잡한 뉘앙스를 완전히 포착하지 못할 수 있습니다. 한편, 최근 시각-언어 모델 (Vision-Language Models, VLMs)의 발전은 인상적인 추론 및 상식 이해 능력을 보여주었습니다. 이러한 역량을 바탕으로, 본 논문은 자율 주행 차량 (ego-vehicle)의 동작 예측 모델을 인간의 선호도에 정렬시키는 시각-언어 가이드 프레임워크인 VL-DPO를 제시합니다. 우리의 접근 방식은 VLM을 제로샷 추론기 (zero-shot reasoner)로 활용하여 사전 학습된 모델의 롤아웃 (rollouts)으로부터 선호도 쌍 (preference pairs)을 자동으로 생성하며, 이를 직접 선호도 최적화 (Direct Preference Optimization, DPO)를 통해 모델을 미세 조정 (finetuning)하는 데 사용합니다. 우리는 Waymo Open End-to-End Driving Dataset (WOD-E2E)에서 모델을 미세 조정하였으며, 평가자 피드백 점수 (rater feedback score, RFS)와 평균 변위 오차 (average displacement error, ADE)를 사용하여 홀드아웃 (held-out)된 인간 선호도 주석에 대해 성능을 평가했습니다. 우리의 실험은 VLM의 궤적 선택이 인간 선호도를 나타내는 고품질의 대리 지표 (proxy)임을 확인시켜 줍니다. 최종 모델인 VL-DPO는 사전 학습된 모델 대비 RFS에서 11.94% 향상되었으며, ADE에서는 10.01% 감소하는 결과를 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

VL-DPO: 선호도 정렬된 자율 주행을 위한 시각-언어 가이드 미세 조정

요약

핵심 포인트

댓글