LeRobot goes to driving school: 세계 최대 오픈소스 자차용 데이터셋

TL;DR, 세계 최대의 자차용 데이터셋 L2D!

독일의 30 개 도시에서 수집한 다중 모달 (multimodal) 데이터 90+ 테라바이트 (5000+ 시간의 주행)
차량 주위 HD 카메라 6 대 및 완전한 차량 상태: 속도/방향/GPS/IMU
연속적 액션: 가속/브레이크/스티어링, 이산적 액션: 기어/전조등
환경 상태: 차선 수, 도로 유형 (고속도로|주거지), 도로 표면 (아스팔트, 돌길, 세팅), 최대 속도 제한.
환경 조건: 강수, 날씨 (눈, 맑음, 비), 조명 (아침, 낮, 황혼)
자연어 지시나 미래 웨이포인트에 조건부인 엔드투엔드 모델 훈련을 위해 설계됨
자연어 지시. 예: "조명이 빨간색으로 변할 때, 전차선 위를 지나가서 그리고 회전교차로를 통과하세요" 등 각 에피소드마다
OpenStreetMap 그래프에 맞춘 미래 웨이포인트, 추가적으로 원형도 (birds-eye-view) 렌더링됨
전문가 (주행 교사) 및 학생 (학습자) 정책

최첨단 비전 언어 모델과 대규모 언어 모델은 인터넷에서 소싱된 이미지 텍스트 코퍼스 (image-text corpora) 에서 훈련되어 오픈소스 AI 의 최근 가속을 주도했습니다. 그러나 이러한 돌파구를에도 불구하고, 엔드투엔드 AI 는 로봇공학 및 자동차 커뮤니티 내에서의 채택이 여전히 낮으며, 이는 OXE 와 같은 고품질의 대규모 다중 모달 데이터셋 부족으로 인한 것입니다.

로봇공학 AI 의 잠재력을 해제하기 위해 Yaak 은 🤗 의 LeRobot 팀과 협력하여 학습을 위한 주행 (Learning to Drive, L2D) 을 로봇공학 AI 커뮤니티에 발표합니다. L2D 는 자동차 도메인을 위한 오픈소스 공간 지능을 구축하는 데 목적이 있으며, 🤗 의 LeRobot 훈련 파이프라인 및 모델에 대한 최상급 지원을 제공합니다. LeRobot 팀의 가장 좋은 관행 (best practices) 을 영감으로 삼아, Yaak 은 AI 커뮤니티가 전체 데이터셋 (> 1 페타바이트) 에서 새로운 에피소드를 검색하고 발견하며, 향후 릴리스 (R5+) 에 통합될 수 있도록 검토를 위해 큐에 등록할 것을 초대합니다.

데이터셋	관찰	상태	액션	작업/지시	에피소드	지속 시간 (시간)	크기 TB
WAYMO	RGB (5x)	—	—	—	2030	11.3	0.5*
...	L2D (R4)
RGB (6x)
GPS/IMU/CAN	☑️	☑️	1000000
5000+
90+

표 1: 오픈소스 자차용 데이터셋 (*라이더와 레이더 제외). 출처 *

L2D 는 독일의 30 개 도시에서 주행 학교를 운영하는 60 대 EV 에 동일한 센서 키트 (sensor suites) 를 설치하여 3 년에 걸쳐 수집되었습니다. L2D 의 정책은 두 그룹으로 나뉩니다 — 전문가 정책은 주행 교사에 의해 실행되며, 학생 정책은 학습자 운전자에게 의해 실행됩니다. 두 정책 그룹 모두 주행 작업에 대한 자연어 지시를 포함합니다. 예를 들어, "당신이 우선권을 가질 때, 회전교차로의 세 번째 출구를 조심스럽게 지나가세요".

그림 1: 시각화: Nutron (6 대 중 3 대를 보여줌)
지시: "당신이 우선권을 가질 때, 회전교차로를 통과하고 세 번째 출구를 향하세요"

전문가 정책은 주행 실수가 없으며 최적으로 간주되며, 학생 정책은 알려진 부최적 (sub optimality) 을 가지고 있습니다 (그림 2).

그림 2: 진입하는 트럭의 차선으로 들어가지 않도록 흔들리는 스티어링을 가진 학생 정책 "

EU 내 운전 면허 취득을 위해 필수로 수행해야 하는 모든 주행 시나리오를 두 그룹 모두 커버합니다 (독일어 버전). 예를 들어, 추월, 회전교차로 및 철도 선로 등입니다. 릴리스 (아래 R3+ 참조) 에서 불완전한 학생 정책의 경우, 부실성의 자연어 추론이 포함됩니다. 예: "접근하는 교통 흐름 근처에서의 잘못된/갑작스러운 핸들 조작" (Fig 2)

L2D (R2+) 는 종단간 공간 지능을 훈련하기 위한 고유하고 다양한 '에피소드'를 AI 커뮤니티에 제공하는 가장 큰 오픈소스 자율주행 데이터셋이 될 것을 목표로 합니다. 주행 정책의 전체 스펙트럼 (학생 및 전문가) 을 포함함으로써, L2D 는 차량을 안전하게 운전하는 복잡성을 포착합니다. 운영용 자율주행 플레트를 완전히 대표하기 위해, 다양한 환경 조건, 센서 고장, 공사 구역 및 작동하지 않는 신호등이 포함된 에피소드를 포함했습니다.

전문가 정책 그룹과 학생 정책 그룹은 아래 표에 자세히 설명된 동일한 센서 설정으로 캡처됩니다. 6 개의 RGB 카메라는 차량의 컨텍스트를 360o 로 캡처하고, 온보드 GPS 는 차량 위치와 헤딩을 캡처합니다. IMU 는 차량 동력을 수집하며, 우리는 차량 CAN 인터페이스에서 속도, 가속/브레이크 페달, 핸들 각도, 방향지시등 및 기어를 읽습니다. 모든 모달리티 유형은 프론트 왼쪽 카메라 (observation.images.front_left) 를 사용하여 해당 unix epoch 타임스탬프로 동기화했습니다. 또한 가능한 경우 데이터 포인트를 보간하여 정밀도를 향상시켰고 (Table 2 참조), 최종적으로 샘플링 속도를 10 Hz 로 줄였습니다.

Fig 3: 멀티모달 데이터 시각화 (시각화: Nutron, 명확성을 위해 6 개 카메라 중 3 개만 표시)
Table 2: 모달리티 유형, LeRobot v3.0 키, 모양 및 보간 전략.

L2D 는 공식적인 독일어 주행 작업 카탈로그 (상세 버전) 의 주행 작업 정의, 주행 하위 작업 및 작업 정의를 따릅니다. 모든 에피소드에 고유한 Task ID 와 자연어 지시를 할당합니다. 모든 에피소드의 LeRobot:task 는 "교통 규칙 및 규정을 준수하며 웨이포인트를 따라가다"로 설정됩니다. 아래 표는 몇 가지 샘플 에피소드,其自然어 지시, 주행 작업 및 하위 작업을 보여줍니다. 전문가 정책과 학생 정책은 유사한 시나리오에 대해 동일한 Task ID 를 가지며, 지시는 에피소드에 따라 다릅니다.

Table 3: L2D 의 샘플 에피소드, 해당 지시사항 및 EU 운전 과제 카탈로그에서 파생된 Task ID

Episode	Instructions	Driving task	Driving sub-task	Task Definition	Task ID
Visualization LeRobot Visualization Nutron	주차된 배송 트럭을 우회하여 직진하고 진입 차량에게 우선권을 양보하세요.	3 통과, 추월	3.1 장애물 및 좁은 구간 통과	이 하위 과제는 우선순위 규칙을 따르면서 장애물을 통과하거나 좁은 도로를 주행하는 것을 포함합니다.	3.1.1.3a 표지판 없는 우선순위 규정 (표준)
Visualization LeRobot Visualization Nutron	보호되지 않은 좌회전으로 진입하고 통행 차량에게 우선권을 양보하세요.	4 교차로, 분기점, 이동하는 교통 진입	4.1 교차로 및 분기점 통과	이 하위 과제는 우선순위 규칙을 따르고 다른 차량을 관찰하면서 교차로와 분기점을 통과하는 것을 포함합니다.	4.1.1.3a 좌회전 전 우회전
Visualization LeRobot Visualization Nutron	양보 표지까지 직진하고 회전교차로의 첫 번째 출구를 취하세요.	5 회전교차로	5.1 회전교차로	이 하위 과제는 우선권 규칙을 이해하고 올바르게 위치하면서 회전교차로를 안전하게 주행하는 것을 포함합니다.	5.1.1.3a 한 차선

표 3: L2D 의 샘플 에피소드, 해당 지시사항 및 EU 운전 과제 카탈로그에서 파생된 Task ID *

우리는 차량 위치 (GPS), 오픈소스 루팅 머신 (OSRM), 오픈스트리트맵 (OpenStreetMap) 과 대형 언어 모델 (LLM) 을 사용하여 지시사항과 웨이포인트의 구축을 자동화합니다 (아래 참조). 자연어 쿼리는 대부분의 GPS 내비게이션 장치에서 제공되는 방향지시 내비게이션을 밀접하게 따르도록 구성됩니다. 웨이포인트 (Fig 4) 는 원본 GPS 추적 데이터를 OSM 그래프에 매핑하고 차량의 현재 위치 (그린색) 에서 100 미터 범위를 거쳐 10 개의 등거리 점 (주황색) 을 샘플링하여 계산되며, 주행용 웨이포인트로 사용됩니다.

Fig 4: L2D 6x RGB 카메라, 웨이포인트 (주황색) 및 차량 위치 (그린색) *

지시사항: 정지표지까지 직진하고 우선권이 있을 때 왼쪽에서 진입하는 이동 교통과 합류하세요.

| Expert policies | Student policies |
| GPS 추적 데이터는 운전 학교 차량에서 수집된 전문가 정책의 GPS 추적 데이터입니다. L2D 의 전문가 정책 전체 범위를 확인하려면 여기를 클릭하세요. | 학생 정책은 전문가 정책과 동일한 지리적 위치를 포함합니다. L2D 의 학생 정책 전체 범위를 확인하려면 여기를 클릭하세요. |

우리는 30 개의 독일 도시에서 운영되는 60 대의 KIA E-niro 운전 학교 차량을 사용하여 전문가와 학생 정책을 수집했습니다. 모든 차량은 동일한 센서 구성을 갖추고 있습니다. 이 차량으로 수집된 다중 모달 로그는 구조화되지 않았으며, 어떤 과제나 지시사항 정보도 포함하지 않습니다. 에피소드를 검색하고 선별하기 위해 우리는 GPS 추적 데이터를 OSRM 과 매핑하여 추출한 정보를 추가하고 OSM 에서 노드 및 웨이 태그를 할당합니다 (다음 섹션 참조). LLM 이 결합되면 자연어 설명을 통해 과제를 수행하는 에피소드를 검색할 수 있습니다.

관련 에피소드를 효율적으로 검색하기 위해 우리는 OSRM 을 사용하여 추적 데이터를 매핑하여 회전 정보를 추가한 GPS 추적 데이터를 enrich 합니다. 또한 OSM 을 사용하여 매핑된 라우트를 할당하고 라우트 기능, 라우트 제한 및 라우트 조작을 collectively route tasks 로 지칭하며 trajectory 에 할당합니다 (샘플 Map 참조). Appendix A1-A2 는 GPS 추적 데이터에 할당하는 라우트 과제에 대한 자세한 정보를 제공합니다.

Fig 5: 원본 GPS 추적 데이터에 할당된 운전 과제 (Map 보기) *

지도 매칭 경로 (map-matched route) 에 할당된 경로 작업 (route tasks) 은 차량이 지정된 작업에 의해 정의된 지리적 선형 (geospatial linestring) 또는 점 (point) 에 진입하고 퇴출하는 시간 (unix epoch) 을 시작 및 종료 타임스탬프로 할당받습니다 (Fig 6).

Begin: 주행 작업 (별개의 탭에서 확인 권장)	End: 주행 작업 (별개의 탭에서 확인 권장)

Fig 6: 분홍색: GNSS 추적, 파란색: 매칭된 경로, 작업: 차선 통과, 철도 교차로 및 회전교차로 (지도 보기) *

우리는 Fig 5 에 설명된 대로 주행 작업 (route tasks) 을 기준으로 다중 모달 데이터 (multimodal data) 의 의미론적 공간 시간 인덱싱 (semantic spatiotemporal indexing) 을 수행합니다.
이 단계는 다중 모달 데이터에 대한 풍부한 의미론적 개요를 제공합니다. 지시어 (instructions) 를 사용하여 의미론적 공간 내에서 대표적인 에피소드 (episodes) 를 검색하기 위해, 예를 들어 "회전교차로까지 올라가면 우선권을 가지면 우회전을 하세요"와 같은 경우, 우리는 모든 주행 데이터 (> 1 PetaBytes) 내에서 매칭된 에피소드를 검색하기 위한 LLM 기반 다중 모달 자연어 검색 (LLM-powered multimodal natural language search) 을 구축했습니다.

우리는 자연어 쿼리 (지시어) 를 GPS 나비게이션 장치에 제공되는 바이트-바이트 내비게이션과 유사하게 구조화했습니다. 지시어를 주행 작업으로 번역하기 위해, 우리는 지시어를 LLM 에 프롬프트로 제공하고 출력 경로를 route features, route restrictions, route maneuvers 로 유도하며 해당 경로 작업 (route tasks) 에 할당된 에피소드를 검색합니다. 우리는 hallucinations(환상성) 을 최소화하기 위해 pydantic 모델과 엄격한 검증 (strict validation) 을 수행합니다. 구체적으로 llama-3.3-70b 를 사용하며 pydantic 모델에 의해 정의된 스키마로 출력 방향을 유도했습니다. 구조화된 출력의 품질을 추가로 개선하기 위해, 우리는 약 30 쌍의 알려진 자연어 쿼리와 경로 작업을 인맥 학습 (in-context learning) 에 사용했습니다. Appendix A. 2 는 우리가 사용한 인맥 학습 쌍에 대한 세부 정보를 제공합니다.

지시어: 회전교차로까지 올라가면 우선권을 가지면 우회전을 하세요 *

L2D on 🤗 는 LeRobot 내의 현재 및 미래 모델의 기능을 최대한 활용하기 위해 LeRobotDataset v2.1 과 LeRobotDataset v3.0 형식으로 변환됩니다. AI 커뮤니티는 이제 ACT, Diffusion Policy, Pi0 와 같은 실제 세계 로봇공학 (real world robotics) 의 최첨단 모방 학습 (imitation learning) 과 강화학습 (RL) 모델을 활용하여 엔드-엔드 자율주행 모델 (end-to-end self-driving models) 을 구축할 수 있습니다.

기존의 자율주행 데이터셋 (아래 표 참조) 은 2D/3D 객체 감지, 추적, 분할 및 운동 계획과 같은 중간 수준의 인식 및 계획 작업을 중점적으로 다루며, 이는 고품질의 주석이 필요하여 확장하기 어렵습니다. 대신 L2D 는 센서 입력 (sensor input) 에서 직접 행동 (policy) 을 예측하는 엔드-엔드 학습 (end-to-end learning) 개발에 집중합니다 (Table 1.). 이러한 모델은 인터넷 사전 훈련된 VLM 과 VLAM 을 활용합니다.

로봇공학 AI 모델의 성능은 훈련 세트 내 에피소드의 품질에 의해 제한됩니다.
최고 품질의 에피소드를 보장하기 위해, 우리는 L2D 를 단계적 출시 (phased release) 계획합니다. 각 새로운 릴리스마다 우리는 에피소드에 대한 추가 정보를 추가합니다. 각 릴리스 R1+ 는 이전 릴리스를 포함하는 상위 집합으로 구성되어 깨끗한 에피소드 역사가 보장됩니다.

- 지시어 (instructions)*: 주행 작업의 자연어 지시어

: EU 의정된 주행 작업 Task ID 3 과 에피소드 매핑
3.
task_id*: OSM 에서의 차선 수 및 회전 차로 정보
4.*
observation.state.route*: 비최적 정책의 원인을 위한 자연어 설명

LeRobot goes to driving school: 세계 최대 오픈소스 자차용 데이터셋

요약

핵심 포인트

댓글