FleetAgent: 벡터화된 V2N 메시지를 통한 자율 주행 플릿용 원격 제어 보조 시스템
요약
자율 주행 플릿의 원격 제어를 돕기 위해 벡터화된 V2N 메시지를 사용하는 MLLM 어시스턴트 FleetAgent를 제안합니다. VecFormer 인터페이스를 통해 데이터 전송 비용과 메모리 사용량을 획기적으로 줄이면서도 효율적인 모니터링과 설명 가능한 피드백을 제공합니다.
핵심 포인트
- 벡터화된 메시지를 활용해 업링크 페이로드를 최대 625배 절감
- VecFormer를 통해 GPU KV-캐시 메모리 사용량을 16.54배 감소
- 개입 긴급도 점수 및 구조화된 자연어 응답 제공
- nuScenes 기반의 새로운 데이터셋 VecEval 구축
- 기존 방식 대비 개입 실패율 19.9% 감소 입증
대규모 자율 주행 플릿(Autonomous fleets)은 드문 실패 사례를 해결하기 위해 원격 제어(Teleoperation)에 의존하지만, 많은 차량으로부터 가공되지 않은 센서 데이터(Raw sensor data)를 스트리밍하는 것은 비용이 많이 들며, 원격 운영자는 한 번에 제한된 수의 차량만 모니터링할 수 있습니다. 우리는 지도 요소(Map elements), 탐지된 객체(Detected objects), 그리고 자차의 계획된 경로(Ego planned path)와 같은 압축된 벡터화된 차량-네트워크(V2N) 메시지를 소비하는 클라우드 호스팅 멀티모달 대규모 언어 모델(Multimodal Large Language Model, MLLM) 어시스턴트인 FleetAgent를 소개합니다. FleetAgent는 운영자의 우선순위 설정을 위한 개입 긴급도 점수(Intervention urgency score)와 함께 구조화된 자연어 응답(내레이션, 설명, 그리고 계획 및 장면의 평가 포함)을 제공합니다. 구조화된 메시지를 토큰 기반 MLLM과 호환되게 만들기 위해, 우리는 컨텍스트 길이와 GPU KV-캐시(KV-cache) 성장을 제한하는 미분 가능한 Top-K 컨텍스트 선택 기능을 갖춘 벡터-임베딩 인터페이스인 VecFormer를 제안합니다. 이는 클라우드 호스팅 대규모 플릿 관리 환경에서 중요한 더 효율적인 배치 처리(Batch processing)를 가능하게 합니다. 또한 우리는 제안된 시스템의 학습과 평가를 용이하게 하기 위해, 인간의 계획 및 합성된 불완전한 계획과 인간이 검증한 언어 라벨이 쌍을 이루는 nuScenes 유래 데이터셋인 VecEval을 구축합니다. 우리가 제안하는 시스템은 원본 이미지와 비교했을 때 업링크 페이로드(Uplink payload)를 최대 625배까지 줄일 수 있으며, 기존 텍스트 설명과 비교했을 때 KV-캐시 메모리를 16.54배 줄일 수 있습니다. VecEval에서 FleetAgent는 언어 설명을 사용하는 Qwen2.5-VL-7B와 비교했을 때 Lingo-Judge 점수를 16.8% 향상시키고 개입 실패율(Intervention failure rate)을 19.9% 감소시켰습니다. 이러한 결과는 FleetAgent가 압축된 구조화된 V2N 메시징을 활용하여 자율 주행 플릿을 위한 효율적이고 설명 가능한 원격 제어 모니터링을 가능하게 할 수 있음을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기