arXiv논문2026. 05. 25. 16:47

Fast-dDrive: 자율 주행을 위한 효율적인 블록 확산 (Block-Diffusion) VLM

요약

Fast-dDrive는 자율 주행을 위한 효율적인 블록 확산(Block-Diffusion) VLA 모델을 제안합니다. 기존 AR 모델의 메모리 제한과 확산 모델의 인과 관계 위반 문제를 해결하며, 높은 처리량과 정확도를 동시에 달성했습니다.

핵심 포인트

의미 단위 내 양방향 정제와 단위 간 인과적 순서 강제
스캐폴드 투기적 디코딩을 통한 높은 처리량 확보
테스트 시간 스케일링을 통한 예측 분산 억제
nuScenes 데이터셋에서 평균 L2 오차 22% 개선
AR 베이스라인 대비 최대 12배의 처리량 가속

Vision-Language-Action (VLA) 모델을 통한 엔드투엔드 (End-to-end) 자율 주행은 고충실도 경로 계획 (trajectory planning)과 효율적인 추론 (inference) 사이의 정교한 균형을 요구합니다. 기존의 패러다임은 일반적으로 한계가 있습니다. 자기회귀 (Autoregressive, AR) VLA는 엣지 (edge) 하드웨어에서 메모리 대역폭 제한 (memory-bandwidth-bound)을 받으며 노출 편향 (exposure-bias) 드리프트에 취약합니다. 반면, 전체 시퀀스 확산 모델 (full-sequence diffusion models)은 KV-캐시 (KV-cache) 재사용을 불가능하게 하며, '인지 후 계획'이라는 근본적인 인과 관계를 위반하는 '논리적 누출 (logical leakage)' 문제를 겪습니다. 본 논문에서는 의미 단위 (semantic units) 내에서 양방향 정제 (bidirectional refinement)를 수행하는 동시에 단위 간에는 엄격한 인과적 순서를 강제하는 블록 확산 (block-diffusion) VLA인 Fast-dDrive를 제시합니다. 주행 VLA가 종종 구조화된 JSON 스타일의 출력을 생성한다는 관찰을 바탕으로, Fast-dDrive는 구조적 토큰 (structural tokens)을 섹션 스캐폴드 (section scaffold)로 고정하고 안전에 직결된 계획을 우선시하는 섹션 인식 학습 레시피 (section-aware training recipe)를 채택합니다. 나아가, 우리는 훨씬 더 높은 처리량 (throughput)으로 AR과 동등한 품질을 달성하기 위해 스캐폴드 투기적 디코딩 (Scaffold Speculative Decoding)을 도입합니다. 마지막으로, 오버헤드가 낮은 테스트 시간 스케일링 (test-time scaling) 기법을 제안합니다. 단일 공유 접두사 (shared-prefix) KV-캐시로부터 $N$개의 확률적 경로 롤아웃 (stochastic trajectory rollouts)을 분기하고 이를 평균화함으로써, 아주 적은 계산 비용으로 예측 분산 (prediction variance)을 효과적으로 억제합니다. 실험 결과는 Fast-dDrive가 주행 에이전트의 속도-정확도 경계 (speed-accuracy frontier)를 재정의함을 보여줍니다. WOD-E2E 테스트 세트에서 Fast-dDrive는 확산 기반 VLA 중 가장 높은 RFS와 함께 SOTA 수준의 ADE@3s 및 ADE@5s를 달성했습니다. nuScenes에서는 평균 L2 오차를 $0.32$m로 줄였습니다 ($22%$ 개선). SGLang과 통합했을 때, 우리의 프레임워크는 AR 베이스라인 대비 $12\times$의 처리량 가속을 제공하여, 고용량 VLA와 실시간 차량 탑재 (on-vehicle) 배포의 효율성 요구 사항 사이의 간극을 좁힙니다.

AI 자동 생성 콘텐츠

원문 바로가기

Fast-dDrive: 자율 주행을 위한 효율적인 블록 확산 (Block-Diffusion) VLM

요약

핵심 포인트

댓글