LeRobot 커뮤니티 데이터셋: 로봇의 'ImageNet'은 언제 어떻게 만들어질까?

TL;DR — 이 블로그 포스트가 필요한 이유

이번 글에서는:

커뮤니티 기여 LeRobot데이터셋의 성장하는 영향력을 인식하고, 로봇 데이터 수집 및 큐레이션의 현재적인 과제를 강조합니다.
이러한 집단적 노력의 영향을 극대화하기 위한 실용적인 단계와 모범 사례를 공유합니다.

우리의 목표는 일반화 (generalization) 를 데이터 문제로 프레임링하고, 오픈하고 다양한 "로봇의 ImageNet"을 구축하는 것은 단순히 가능하지—not just possible—아니라 이미 일어나고 있다는 것을 보여주는 것입니다.

최근 Vision-Language-Action (VLA) 모델의 발전은 로봇이 단순한 명령어부터 "큐브를 잡기", 더 복잡한 활동인 옷을 접거나 테이블을 청소하기까지 다양한 작업을 수행할 수 있게 했습니다. 이러한 모델은 일반화 (generalization) 를 달성하는 것을 목표로 합니다: 새로운 환경, 보이지 않는 객체, 그리고 다양한 조건에서 작업을 수행할 수 있는 능력.

"로봇 공학의 가장 큰 과제는 민첩성 (dexterity) 이 아니라 일반화—물리적, 시각적, 그리고 의미론적 수준에서의 일반화입니다."

—Physical Intelligence

로봇은 "새로운 환경이나 새로운 객체에서도 간단한 작업을 올바르게 수행하는 방법을 알아내야" 합니다. 이는 강력한 기술과 세계에 대한 공통의 이해 (common-sense understanding) 를 필요로 합니다. 그러나 이러한 로봇 시스템의 진보는 다양한 데이터의 이용 가능성에 의해 종종 제한됩니다.

"일반화는 여러 수준에서 발생해야 합니다. 낮은 수준에서는 로봇이 숟가락을 (손잡이를 통해) 또는 접시 (가장자리로) 을 집어올리는 방법을 이해해야 하며, 이전에 이러한 특정 숟가락이나 접시를 본 적이 없거나, 그리고 그들을 더러운 식기류에 쌓아두려 할 때에도 마찬가지여야 합니다. 높은 수준에서는 로봇이 각 작업의 의미론을 이해해야 합니다—옷과 신발을 어디에 두어야 하는지 (이상적으로 세탁함이나 옷장—not on the bed), 그리고 스펀지를 닦는 데 적합한 어떤 종류의 도구를 사용하는지. 이러한 일반화는 강력한 물리적 기술과 환경에 대한 공통의 이해를 필요로 하여, 로봇이 동시에 여러 수준에서 일반화할 수 있게 합니다—물리적, 시각적, 의미론적. 이는 이러한 로봇 시스템에 대한 다양한 데이터의 이용 가능성 제한으로 인해 더욱 어렵습니다."

—Physical Intelligence

간단히 말하면, 일반 정책 (generalist policies) 의 핵심은 간단한 아이디어에 있습니다: 이질적인 데이터셋을 통한 공동 학습 (co-training on heterogeneous datasets). VLA 모델을 다양한 환경, 작업, 그리고 로봇 구현에 노출함으로써, 우리는 모델이 어떻게 행동하는지뿐만 아니라 왜—시장을 해석하고, 목표를 이해하며, 컨텍스트를 넘어 기술을 적응시키는 방법을 가르칠 수 있습니다.

💡

"일반화는 단순히 모델 속성이 아닙니다—it's a data phenomenon."

이는 훈련 데이터의 다양성, 품질, 그리고 추상화 수준에서 발생합니다.

이로 인해 근본적인 질문이 제기됩니다:

현재의 데이터셋을 주어진 경우, 우리는 기대할 수 있는 일반화의 상한선이 무엇입니까?

로봇이 훈련 중에 전혀 유사한 것을 본 적이 없다면—예를 들어, "생일 파티 준비"—완전히 새로운 프롬프트에 의미 있게 응답할 수 있을까요? 특히 대부분의 데이터셋은 대학 실험실에서 수집되어 제한된 사람들에 의해 잘 통제된 설정에서 수집되었을 때?

우리는 일반화를 데이터 중심의 관점 (data-centric view) 으로 프레임링합니다: 데이터를 더 넓은 패턴으로 추상화하는 과정—즉, "줌 아웃"하여 작업 무관 구조와 원칙을 드러내는 것입니다. 이 관점의 전환은 모델 아키텍처뿐만 아니라 일반화를 주도하는 데이터셋의 다양성의 역할을 강조합니다.

현재까지 대부분의 로봇 데이터셋은 구조화된 학술 환경에서 유래했습니다. 예외 없이 수백만 개의 데모를 확장하더라도, 하나의 데이터셋이 종종 우세하여 다양성을 제한합니다. ImageNet 이 인터넷 규모의 데이터를 집계하고 현실을 더 포괄적으로 포착한 것과 달리, 로봇학에서는 이와 유사하게 다양한 커뮤니티 주도 벤치마크가 부족합니다.

이는 로봇 데이터 수집을 위해 물리적 하드웨어와 상당한 노력이 필요하기 때문입니다.

따라서, LeRobot 에서 우리는 로봇 데이터 수집을 더 접근 가능하게 만들기 위해 노력하고 있습니다. 가정, 학교, 또는 어디서나 가능합니다. 우리는:

기록 파이프라인 단순화
Hugging Face Hub 에 업로드를 간소화하여 커뮤니티 공유 촉진
하드웨어 비용 절감

이미 결과를 보고 있습니다: Hub 의 커뮤니티 기여 데이터셋 수는 급격히 증가하고 있습니다.
lerobot 데이터셋의 성장 (Hugging Face Hub).

업로드된 데이터셋을 로봇 유형으로 나누어 보면, 대부분의 기여가 So100 과 Koch 에 해당하여, 로봇팔과 조작 작업이 현재 LeRobot 데이터셋 경향의 주요 초점이 되었습니다. 그러나 잠재력은 훨씬 더 멀리 도달한다는 것을 기억하는 것이 중요합니다. 자율주행차, 보조로봇, 모바일 네비게이션과 같은 분야는 공유 데이터로부터 동등하게 혜택을 볼 수 있습니다. 이 모멘텀은 단일 실험실 또는 기관의 기여가 아닌 전 세계적 노력이 반영된 미래를 향해 우리를 더 가까이 데려옵니다.

lerobot 데이터셋의 로봇 유형 분포.

여기서 몇 가지 눈에 띄는 커뮤니티 기여 데이터셋을 소개합니다. 이는 로봇학이 얼마나 다양하고 상상력을 발휘할 수 있는지 보여줍니다:
lirislab/close_top_drawer_teabox
:: 가정용 상자를 정밀하게 조작하는 데 사용됨
Chojins/chess_game_001_blue_stereo
:: 스테레오 카메라 설정에서 촬영된 전체 체스 매치
pierfabre/chicken
:: 네, 로봇이 다채로운 동물 형상과 닭 🐔 과 상호작용하는 것

Hugging Face Hub 의 LeRobot 태그 아래 추가 창의적인 데이터셋을 탐색하고 LeRobot Dataset Visualizer 에서 인터랙티브하게 확인하세요.

로봇 데이터 수집이 민주화됨에 따라, 큐레이션이 다음 과제가 됩니다. 이 데이터셋들은 여전히 제한된 설정에서 수집되지만, 저렴한 일반적 로봇 정책으로 가는 중요한 단계입니다. 모든 사람이 고가의 하드웨어에 접근할 수는 없지만, 공유 인프라와 오픈 협업을 통해 훨씬 더 큰 것을 구축할 수 있습니다.

🧠
“일반화는 실험실에서 해결되지 않습니다—it 는 세계로 가르쳐집니다.”

데이터가 다양해질수록 모델의 능력도 커집니다.

왜 데이터 품질이 중요한가요? 저품질 데이터는 하류 성능이 낮고 편향된 출력, 일반화 실패를 초래합니다. 따라서 효율적이고 고품질의 데이터 수집은 일반적 로봇 정책 발전을 위한 핵심 역할을 합니다.

시각 및 언어 분야에서의 foundation 모델은 대규모 웹 규모의 데이터셋에서 번창해 왔지만, 로봇학은 "로봇 인터넷"—실제 세계 상호작용의 광범위하고 다양한 코퍼스—을 갖지 못했습니다. 대신, 로봇 데이터는 서로 다른 구현, 센서 설정, 제어 모드에 분산되어 고립된 data islands 를 형성합니다.

이를 극복하기 위해 최근 접근법인 Gr00t 는 훈련 데이터를 피라미드로 조직하며:

대규모 웹 및 비디오 데이터가 기반을 형성 - 합성 데이터는 시뮬레이션 다양성을 추가 - 실제 로봇 상호작용이 상단에 위치하여 모델을 물리적 실행에 기반합니다

이 프레임워크 내에서 효율적인 실세계 데이터 수집은 필수적입니다—it 학습된 행동을 실제 로봇 하드웨어에 고정하고 **sim-to-real gap(시뮬레이션과 현실의 격차)**을 닫아, 결국 로봇 기반 모델의 일반화, 적응력 및 성능을 향상시킵니다.

실세계 데이터셋의 양과 다양성을 확대함으로써 이질적 데이터 소스 간의 분할을 줄입니다. 환경, 구현 (embodiment), 또는 작업 분포 측면에서 데이터셋이 분리되어 있을 때 모델은 도메인 간 지식 전이를 어렵게 됩니다.

🔗

실세계 데이터는 연결 조직과 같은 역할을 합니다—it 추상적 사전 지식을 토착적 행동과 정합시키고 모델을 더 일관되고 전이 가능한 표현을 구축할 수 있게 합니다.

결과적으로, 실제 로봇 상호작용의 비율을 높이는 것은 단순히 현실감을 향상시키는 것—not 구조적으로 강화하는 것—파이라미드 (pyramid) 의 모든 층 간의 링크를 구조적으로 강화하여 더욱 견고하고 능력 있는 정책을 만듭니다.

로봇 기반 모델 훈련용 데이터 파이라미드. Gr00t (Yang et al., 2025) 에서 수정됨. 양은 아래에서 위로 갈수록 감소하며 구현 특성은 증가합니다.

LeRobot(레로봇)에서는 커뮤니티 데이터셋을 후처리하는 자동 커레이션 파이프라인 개발을 시작했습니다. 후처리 단계 동안, 우리는 향후 더 효과적인 커레이션을 촉진하고 데이터셋 품질을 더욱 높일 수 있는 몇 가지 개선 영역을 식별했습니다:

많은 데이터셋은 작업 설명이 부족하거나 상세 정보가 누락되어 있거나 수행할 작업에 대해 모호합니다. 의미론 (semantics) 은 현재 인지 (cognition) 의 핵심이며, 로봇 성능을 위해 작업의 맥락과 세부 사항을 이해하는 것이 중요합니다. 상세한 표현은 로봇이 정확히 무엇을 기대하는지 이해하게 해주지만, 또한 인지 시스템에 더 넓은 지식과 어휘를 제공합니다. 모호성은 잘못된 해석으로 이어질 수 있으며, 결과적으로 잘못된 행동으로 이어집니다.

작업 지시는 다음과 같을 수 있습니다:

비어 있음 (empty)
너무 짧음 (예: "Hold", "Up")
특정 의미가 없음 (예: "task desc", "desc")

서브 작업 수준의 주석은 종종 누락되어 있어 복잡한 작업 계층 구조를 모델링하기 어렵습니다.

이는 VLM(비전 언어 모델) 으로 처리할 수 있지만, 여전히 해당 데이터셋의 작성자가 제공하는 작업 주석이 더 좋습니다.

images.laptop과 같은 기능 (features) 은 모호하게 라벨링됩니다:

때로는 3 인칭 관점 (third-person view)
다른 때는 그립퍼 (wrist) 카메라와 비슷함

데이터셋 기능을 표준화된 이름으로 매핑하는 것은 시간 소모적이고 오류가 많습니다.

VLM 또는 컴퓨터 비전 모델을 사용하여 카메라 관점을 분류함으로써 기능 유형 추론을 자동화할 수 있습니다. 그러나 이를 염두에 두는 것이 더 깔끔한 데이터셋을 갖게 하는 데 도움이 됩니다.

일부 데이터셋에는:

1 개 또는 매우 적은 프레임만 있는 에피소드 (episodes)
재 인덱싱 없이 삭제된 .parquet 파일과 같이 수동으로 삭제된 데이터 파일이 포함되어 있어 순차적 일관성을 깨뜨립니다.

다른 데이터셋은 동일한 로봇 (예: so100) 을 위해 서로 다른 행동 또는 상태 차원을 사용합니다.

일부 데이터셋은 행동/상태 형식에서 불일치를 보입니다.

이제 고 품질 데이터셋 생성이 신뢰할 수 있고 일반화 가능한 로봇 정책을 훈련하는 데 필수적이라는 것을 알았으므로, 효과적인 데이터 수집을 도와주기 위한 모범 사례 체크리스트를 제시합니다.

✅ 우선 **두 개의 카메라 뷰 (two camera views)**를 사용하세요 - ✅ **안정적인 영상 캡처 (steady video capture)**를 보장하세요 (진동 없음) - ✅ **중립적이고 안정적인 조명 (neutral, stable lighting)**을 유지하세요 (과도한 노란색 또는 파란색 톤 피하기) - ✅ **일관된 노출 (consistent exposure)**과 명확한 초점 (sharp focus)을 확보하세요 - ✅ 프레임에 로봇 암이 나타나지 않도록 (Leader arm should not appear) - ✅ 움직이는 물체는 팔만 그리고 조작된 객체 (only moving objects)여야 합니다 (인체의 팔/몸은 피하세요) - ✅ 고해상도 (high resolution)로 녹화하세요 (최소 480x640 / 720p) - ✅ 메타데이터에서 올바른 로봇 타입 (correct robot type)을 선택하세요. 공식 LeRobot 구성 레지스트리에 없는 커스텀 로봇을 사용하는 경우, 일관성을 보장하기 위해 기존 데이터셋에서 유사한 로봇이 어떻게 명명되었는지 확인하는 것이 좋습니다. - ✅ 초당 30 프레임 (30 frames per second / FPS)으로 영상을 녹화하세요 - ✅ 에피소드 삭제 (deleting episodes) 시에는 메타데이터 파일을 적절히 업데이트하세요 (우리는 데이터셋 편집을 위한 적절한 도구를 제공할 것입니다)\n\n모든 카메라 뷰와 관측치를 위해 일관되고 해석 가능한 명명 방식을 사용하세요:\n\n형식:\n\n\n<modality>.<location>\n\n\n예시:\n\nimages.top\n\nimages.front\n\nimages.left\n\nimages.right\n\n장비별 명칭 피하기:\n- ❌ images.laptop\n- ❌ images.phone\n\n손목 카메라의 경우 방향을 명시하세요:\n\nimages.wrist.left\n\nimages.wrist.right\n\nimages.wrist.top\n\nimages.wrist.bottom\n\n일관된 명명 방식은 명확성을 높이고 다운스트림 모델이 공간 구성과 멀티뷰 입력을 더 잘 해석하는 데 도움이 됩니다.\n\n- ✅ 작업 (task) 필드를 사용하여 로봇의 목표를 명확히 기술하세요.예시:Pick the yellow lego block and put it in the box - ✅ 작업 설명은 간결하게 유지하세요 (25–50 자) - ✅ task1, demo2 와 같은 모호하거나 일반적인 명칭을 피하세요.\n\n아래는 데이터 수집 과정에서 고려해야 할 주요 사항을 안내하는 체크리스트를 제공합니다.\n\n그림 4: 데이터셋 기록 체크리스트 – 일관되고 고품질의 실제 세계 데이터 수집을 보장하기 위한 단계별 가이드.\n\n일반주의 로봇의 다음 세대는 한 사람이나 실험실에서 구축되지 않을 것입니다 - 우리는 모두 구축할 것입니다. 학생, 연구자, 또는 로봇에 호기심을 가진 분 regardless of your role, here's how you can jump in:\n\n- 🎥 자신의 데이터셋 기록 – LeRobot 도구를 사용하여 로봇에서 고품질의 데이터셋을 캡처하고 업로드하세요.\n- 🧠 데이터셋 품질 개선 – 체크리스트를 따르고 녹화를 정리하여 로봇학 데이터의 새로운 기준을 설정하는 데 도움을 주세요.\n- 📦 Hub 에 기여 – 데이터셋을 업로드하고 예시를 공유하며 다른 사람들이 구축하고 있는지 탐색하세요.\n- 💬 대화 참여 – LeRobot 디스코드 서버에 참여하여 피드백을 제공하고 기능을 요청하거나 로드맵을 형성하는 데 도움을 주세요.\n- 🌍 움직임을 성장시킵니다 – LeRobot 을 클럽, 교실 또는 실험실에 소개하세요. 더 많은 기여자 = 더 나은 일반화.\n\n기록 시작하기, 기여 시작하기 – 오늘날 구축하는 데이터가 일반주의 로봇의 미래를 결정합니다.

LeRobot 커뮤니티 데이터셋: 로봇의 'ImageNet'은 언제 어떻게 만들어질까?

요약

핵심 포인트

댓글