본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 07. 19:43

LeRobot goes to driving school: 세계 최대 오픈소스 자차용 데이터셋

요약

LeRobot 팀에서 발표한 L2D(Learning to Drive) 데이터셋은 독일의 30개 도시에서 수집된 90TB 이상의 초대형 오픈소스 자율주행 데이터셋입니다. 이 데이터셋은 HD 카메라 6대, GPS/IMU, CAN 인터페이스를 포함하는 다중 모달 데이터를 제공하며, 단순한 주행 기록을 넘어 자연어 지시와 미래 웨이포인트가 결합된 '에피소드' 단위로 구성되어 있습니다. L2D의 가장 큰 특징은 '전문가 정책(최적 주행)'과 '학생 정책(실수 포함 학습 과정)'이라는 두 가지 관점의 데이터를 모두 담고 있어, 자율주행 시스템이 단순한 경로 추종을 넘어 복잡하고 현실적인 운전 상황에서의 의사결정 능력을 훈련할 수 있도록 설계되었습니다.

핵심 포인트

  • 90TB 이상의 초대형 다중 모달 데이터셋으로, 세계 최대 규모의 오픈소스 자차용 데이터셋입니다.
  • 6대의 HD 카메라(360도 시야), GPS/IMU, CAN 인터페이스 등 풍부한 센서 정보를 포함합니다.
  • 단순 주행 기록이 아닌 '에피소드' 단위로 구성되어 있으며, 자연어 지시와 미래 웨이포인트가 결합됩니다.
  • 운전 교사(전문가 정책)의 최적 경로와 학습자 운전자(학생 정책)의 실수까지 포괄하여 현실적인 의사결정 훈련을 가능하게 합니다.
  • 독일의 공식 주행 작업 카탈로그를 기반으로 하여, EU 내 필수 주행 시나리오를 커버합니다.

TL;DR, 세계 최대의 자차용 데이터셋 L2D!

  • 독일의 30 개 도시에서 수집한 다중 모달 (multimodal) 데이터 90+ 테라바이트 (5000+ 시간의 주행)
  • 차량 주위 HD 카메라 6 대 및 완전한 차량 상태: 속도/방향/GPS/IMU
  • 연속적 액션: 가속/브레이크/스티어링, 이산적 액션: 기어/전조등
  • 환경 상태: 차선 수, 도로 유형 (고속도로|주거지), 도로 표면 (아스팔트, 돌길, 세팅), 최대 속도 제한.
  • 환경 조건: 강수, 날씨 (눈, 맑음, 비), 조명 (아침, 낮, 황혼)
  • 자연어 지시나 미래 웨이포인트에 조건부인 엔드투엔드 모델 훈련을 위해 설계됨
  • 자연어 지시. 예: "조명이 빨간색으로 변할 때, 전차선 위를 지나가서 그리고 회전교차로를 통과하세요" 등 각 에피소드마다
  • OpenStreetMap 그래프에 맞춘 미래 웨이포인트, 추가적으로 원형도 (birds-eye-view) 렌더링됨
  • 전문가 (주행 교사) 및 학생 (학습자) 정책

최첨단 비전 언어 모델과 대규모 언어 모델은 인터넷에서 소싱된 이미지 텍스트 코퍼스 (image-text corpora) 에서 훈련되어 오픈소스 AI 의 최근 가속을 주도했습니다. 그러나 이러한 돌파구를에도 불구하고, 엔드투엔드 AI 는 로봇공학 및 자동차 커뮤니티 내에서의 채택이 여전히 낮으며, 이는 OXE 와 같은 고품질의 대규모 다중 모달 데이터셋 부족으로 인한 것입니다.

로봇공학 AI 의 잠재력을 해제하기 위해 Yaak 은 🤗 의 LeRobot 팀과 협력하여 학습을 위한 주행 (Learning to Drive, L2D) 을 로봇공학 AI 커뮤니티에 발표합니다. L2D 는 자동차 도메인을 위한 오픈소스 공간 지능을 구축하는 데 목적이 있으며, 🤗 의 LeRobot 훈련 파이프라인 및 모델에 대한 최상급 지원을 제공합니다. LeRobot 팀의 가장 좋은 관행 (best practices) 을 영감으로 삼아, Yaak 은 AI 커뮤니티가 전체 데이터셋 (> 1 페타바이트) 에서 새로운 에피소드를 검색하고 발견하며, 향후 릴리스 (R5+) 에 통합될 수 있도록 검토를 위해 큐에 등록할 것을 초대합니다.

데이터셋관찰상태액션작업/지시에피소드지속 시간 (시간)크기 TB
WAYMORGB (5x)203011.30.5*
...L2D (R4)
RGB (6x)
GPS/IMU/CAN☑️☑️1000000
5000+
90+
  • 표 1: 오픈소스 자차용 데이터셋 (*라이더와 레이더 제외). 출처 *

L2D 는 독일의 30 개 도시에서 주행 학교를 운영하는 60 대 EV 에 동일한 센서 키트 (sensor suites) 를 설치하여 3 년에 걸쳐 수집되었습니다. L2D 의 정책은 두 그룹으로 나뉩니다 — 전문가 정책은 주행 교사에 의해 실행되며, 학생 정책은 학습자 운전자에게 의해 실행됩니다. 두 정책 그룹 모두 주행 작업에 대한 자연어 지시를 포함합니다. 예를 들어, "당신이 우선권을 가질 때, 회전교차로의 세 번째 출구를 조심스럽게 지나가세요".

  • 그림 1: 시각화: Nutron (6 대 중 3 대를 보여줌)
    지시: "당신이 우선권을 가질 때, 회전교차로를 통과하고 세 번째 출구를 향하세요"

전문가 정책은 주행 실수가 없으며 최적으로 간주되며, 학생 정책은 알려진 부최적 (sub optimality) 을 가지고 있습니다 (그림 2).

  • 그림 2: 진입하는 트럭의 차선으로 들어가지 않도록 흔들리는 스티어링을 가진 학생 정책 "

EU 내 운전 면허 취득을 위해 필수로 수행해야 하는 모든 주행 시나리오를 두 그룹 모두 커버합니다 (독일어 버전). 예를 들어, 추월, 회전교차로 및 철도 선로 등입니다. 릴리스 (아래 R3+ 참조) 에서 불완전한 학생 정책의 경우, 부실성의 자연어 추론이 포함됩니다. 예: "접근하는 교통 흐름 근처에서의 잘못된/갑작스러운 핸들 조작" (Fig 2)

L2D (R2+) 는 종단간 공간 지능을 훈련하기 위한 고유하고 다양한 '에피소드'를 AI 커뮤니티에 제공하는 가장 큰 오픈소스 자율주행 데이터셋이 될 것을 목표로 합니다. 주행 정책의 전체 스펙트럼 (학생 및 전문가) 을 포함함으로써, L2D 는 차량을 안전하게 운전하는 복잡성을 포착합니다. 운영용 자율주행 플레트를 완전히 대표하기 위해, 다양한 환경 조건, 센서 고장, 공사 구역 및 작동하지 않는 신호등이 포함된 에피소드를 포함했습니다.

전문가 정책 그룹과 학생 정책 그룹은 아래 표에 자세히 설명된 동일한 센서 설정으로 캡처됩니다. 6 개의 RGB 카메라는 차량의 컨텍스트를 360o 로 캡처하고, 온보드 GPS 는 차량 위치와 헤딩을 캡처합니다. IMU 는 차량 동력을 수집하며, 우리는 차량 CAN 인터페이스에서 속도, 가속/브레이크 페달, 핸들 각도, 방향지시등 및 기어를 읽습니다. 모든 모달리티 유형은 프론트 왼쪽 카메라 (observation.images.front_left) 를 사용하여 해당 unix epoch 타임스탬프로 동기화했습니다. 또한 가능한 경우 데이터 포인트를 보간하여 정밀도를 향상시켰고 (Table 2 참조), 최종적으로 샘플링 속도를 10 Hz 로 줄였습니다.

  • Fig 3: 멀티모달 데이터 시각화 (시각화: Nutron, 명확성을 위해 6 개 카메라 중 3 개만 표시)

  • Table 2: 모달리티 유형, LeRobot v3.0 키, 모양 및 보간 전략.

L2D 는 공식적인 독일어 주행 작업 카탈로그 (상세 버전) 의 주행 작업 정의, 주행 하위 작업 및 작업 정의를 따릅니다. 모든 에피소드에 고유한 Task ID 와 자연어 지시를 할당합니다. 모든 에피소드의 LeRobot:task 는 "교통 규칙 및 규정을 준수하며 웨이포인트를 따라가다"로 설정됩니다. 아래 표는 몇 가지 샘플 에피소드,其自然어 지시, 주행 작업 및 하위 작업을 보여줍니다. 전문가 정책과 학생 정책은 유사한 시나리오에 대해 동일한 Task ID 를 가지며, 지시는 에피소드에 따라 다릅니다.

Table 3: L2D 의 샘플 에피소드, 해당 지시사항 및 EU 운전 과제 카탈로그에서 파생된 Task ID

EpisodeInstructionsDriving taskDriving sub-taskTask DefinitionTask ID
Visualization LeRobot Visualization Nutron주차된 배송 트럭을 우회하여 직진하고 진입 차량에게 우선권을 양보하세요.3 통과, 추월3.1 장애물 및 좁은 구간 통과이 하위 과제는 우선순위 규칙을 따르면서 장애물을 통과하거나 좁은 도로를 주행하는 것을 포함합니다.3.1.1.3a 표지판 없는 우선순위 규정 (표준)
Visualization LeRobot Visualization Nutron보호되지 않은 좌회전으로 진입하고 통행 차량에게 우선권을 양보하세요.4 교차로, 분기점, 이동하는 교통 진입4.1 교차로 및 분기점 통과이 하위 과제는 우선순위 규칙을 따르고 다른 차량을 관찰하면서 교차로와 분기점을 통과하는 것을 포함합니다.4.1.1.3a 좌회전 전 우회전
Visualization LeRobot Visualization Nutron양보 표지까지 직진하고 회전교차로의 첫 번째 출구를 취하세요.5 회전교차로5.1 회전교차로이 하위 과제는 우선권 규칙을 이해하고 올바르게 위치하면서 회전교차로를 안전하게 주행하는 것을 포함합니다.5.1.1.3a 한 차선
  • 표 3: L2D 의 샘플 에피소드, 해당 지시사항 및 EU 운전 과제 카탈로그에서 파생된 Task ID *

우리는 차량 위치 (GPS), 오픈소스 루팅 머신 (OSRM), 오픈스트리트맵 (OpenStreetMap) 과 대형 언어 모델 (LLM) 을 사용하여 지시사항과 웨이포인트의 구축을 자동화합니다 (아래 참조). 자연어 쿼리는 대부분의 GPS 내비게이션 장치에서 제공되는 방향지시 내비게이션을 밀접하게 따르도록 구성됩니다. 웨이포인트 (Fig 4) 는 원본 GPS 추적 데이터를 OSM 그래프에 매핑하고 차량의 현재 위치 (그린색) 에서 100 미터 범위를 거쳐 10 개의 등거리 점 (주황색) 을 샘플링하여 계산되며, 주행용 웨이포인트로 사용됩니다.

  • Fig 4: L2D 6x RGB 카메라, 웨이포인트 (주황색) 및 차량 위치 (그린색) *

지시사항: 정지표지까지 직진하고 우선권이 있을 때 왼쪽에서 진입하는 이동 교통과 합류하세요.

| Expert policies | Student policies |
| GPS 추적 데이터는 운전 학교 차량에서 수집된 전문가 정책의 GPS 추적 데이터입니다. L2D 의 전문가 정책 전체 범위를 확인하려면 여기를 클릭하세요. | 학생 정책은 전문가 정책과 동일한 지리적 위치를 포함합니다. L2D 의 학생 정책 전체 범위를 확인하려면 여기를 클릭하세요. |

우리는 30 개의 독일 도시에서 운영되는 60 대의 KIA E-niro 운전 학교 차량을 사용하여 전문가와 학생 정책을 수집했습니다. 모든 차량은 동일한 센서 구성을 갖추고 있습니다. 이 차량으로 수집된 다중 모달 로그는 구조화되지 않았으며, 어떤 과제나 지시사항 정보도 포함하지 않습니다. 에피소드를 검색하고 선별하기 위해 우리는 GPS 추적 데이터를 OSRM 과 매핑하여 추출한 정보를 추가하고 OSM 에서 노드 및 웨이 태그를 할당합니다 (다음 섹션 참조). LLM 이 결합되면 자연어 설명을 통해 과제를 수행하는 에피소드를 검색할 수 있습니다.

관련 에피소드를 효율적으로 검색하기 위해 우리는 OSRM 을 사용하여 추적 데이터를 매핑하여 회전 정보를 추가한 GPS 추적 데이터를 enrich 합니다. 또한 OSM 을 사용하여 매핑된 라우트를 할당하고 라우트 기능, 라우트 제한 및 라우트 조작을 collectively route tasks 로 지칭하며 trajectory 에 할당합니다 (샘플 Map 참조). Appendix A1-A2 는 GPS 추적 데이터에 할당하는 라우트 과제에 대한 자세한 정보를 제공합니다.

  • Fig 5: 원본 GPS 추적 데이터에 할당된 운전 과제 (Map 보기) *

지도 매칭 경로 (map-matched route) 에 할당된 경로 작업 (route tasks) 은 차량이 지정된 작업에 의해 정의된 지리적 선형 (geospatial linestring) 또는 점 (point) 에 진입하고 퇴출하는 시간 (unix epoch) 을 시작 및 종료 타임스탬프로 할당받습니다 (Fig 6).

Begin: 주행 작업 (별개의 탭에서 확인 권장)End: 주행 작업 (별개의 탭에서 확인 권장)
  • Fig 6: 분홍색: GNSS 추적, 파란색: 매칭된 경로, 작업: 차선 통과, 철도 교차로 및 회전교차로 (지도 보기) *

우리는 Fig 5 에 설명된 대로 주행 작업 (route tasks) 을 기준으로 다중 모달 데이터 (multimodal data) 의 의미론적 공간 시간 인덱싱 (semantic spatiotemporal indexing) 을 수행합니다.
이 단계는 다중 모달 데이터에 대한 풍부한 의미론적 개요를 제공합니다. 지시어 (instructions) 를 사용하여 의미론적 공간 내에서 대표적인 에피소드 (episodes) 를 검색하기 위해, 예를 들어 "회전교차로까지 올라가면 우선권을 가지면 우회전을 하세요"와 같은 경우, 우리는 모든 주행 데이터 (> 1 PetaBytes) 내에서 매칭된 에피소드를 검색하기 위한 LLM 기반 다중 모달 자연어 검색 (LLM-powered multimodal natural language search) 을 구축했습니다.

우리는 자연어 쿼리 (지시어) 를 GPS 나비게이션 장치에 제공되는 바이트-바이트 내비게이션과 유사하게 구조화했습니다. 지시어를 주행 작업으로 번역하기 위해, 우리는 지시어를 LLM 에 프롬프트로 제공하고 출력 경로를 route features, route restrictions, route maneuvers 로 유도하며 해당 경로 작업 (route tasks) 에 할당된 에피소드를 검색합니다. 우리는 hallucinations(환상성) 을 최소화하기 위해 pydantic 모델과 엄격한 검증 (strict validation) 을 수행합니다. 구체적으로 llama-3.3-70b 를 사용하며 pydantic 모델에 의해 정의된 스키마로 출력 방향을 유도했습니다. 구조화된 출력의 품질을 추가로 개선하기 위해, 우리는 약 30 쌍의 알려진 자연어 쿼리와 경로 작업을 인맥 학습 (in-context learning) 에 사용했습니다. Appendix A. 2 는 우리가 사용한 인맥 학습 쌍에 대한 세부 정보를 제공합니다.

  • 지시어: 회전교차로까지 올라가면 우선권을 가지면 우회전을 하세요 *

L2D on 🤗 는 LeRobot 내의 현재 및 미래 모델의 기능을 최대한 활용하기 위해 LeRobotDataset v2.1 과 LeRobotDataset v3.0 형식으로 변환됩니다. AI 커뮤니티는 이제 ACT, Diffusion Policy, Pi0 와 같은 실제 세계 로봇공학 (real world robotics) 의 최첨단 모방 학습 (imitation learning) 과 강화학습 (RL) 모델을 활용하여 엔드-엔드 자율주행 모델 (end-to-end self-driving models) 을 구축할 수 있습니다.

기존의 자율주행 데이터셋 (아래 표 참조) 은 2D/3D 객체 감지, 추적, 분할 및 운동 계획과 같은 중간 수준의 인식 및 계획 작업을 중점적으로 다루며, 이는 고품질의 주석이 필요하여 확장하기 어렵습니다. 대신 L2D 는 센서 입력 (sensor input) 에서 직접 행동 (policy) 을 예측하는 엔드-엔드 학습 (end-to-end learning) 개발에 집중합니다 (Table 1.). 이러한 모델은 인터넷 사전 훈련된 VLM 과 VLAM 을 활용합니다.

로봇공학 AI 모델의 성능은 훈련 세트 내 에피소드의 품질에 의해 제한됩니다.
최고 품질의 에피소드를 보장하기 위해, 우리는 L2D 를 단계적 출시 (phased release) 계획합니다. 각 새로운 릴리스마다 우리는 에피소드에 대한 추가 정보를 추가합니다. 각 릴리스 R1+ 는 이전 릴리스를 포함하는 상위 집합으로 구성되어 깨끗한 에피소드 역사가 보장됩니다.

    • 지시어 (instructions)*: 주행 작업의 자연어 지시어

: EU 의정된 주행 작업 Task ID 3 과 에피소드 매핑
3.

task_id*: OSM 에서의 차선 수 및 회전 차로 정보
4.*
observation.state.route*: 비최적 정책의 원인을 위한 자연어 설명

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0