Meta가 Hugging Face에 LAMP 데이터셋을 출시했습니다
요약
Meta가 Hugging Face를 통해 VLA(Vision-Language-Action) 사전 학습을 위한 LAMP 데이터셋을 출시했습니다. 1인칭 시점의 인간 및 로봇 데이터를 통합하여 로봇의 동작 학습을 지원합니다.
핵심 포인트
- 6,000시간 이상의 1인칭 시점 혼합 데이터 제공
- 인간 비디오를 로봇의 의사 동작으로 변환하는 기술 적용
- RoboCasa 72.8%, RoboTwin 91.1%의 높은 성능 달성
- VLA 모델의 사전 학습을 위한 새로운 연구 자원
Meta가 Hugging Face에 LAMP 데이터셋을 출시했습니다.
AI 연구 커뮤니티를 위한 완전히 새로운 데이터셋입니다.
ACE-Ego-0는 VLA (Vision-Language-Action) 사전 학습 (pretraining)을 위해 1인칭 시점 (egocentric)의 인간 및 로봇 데이터를 통합합니다.
6,000시간 이상의 혼합 데이터로 학습되었으며, 카메라 공간 정렬 (camera-space alignment) 및 신뢰도 인식 손실 (reliability-aware loss)을 통해 인간의 비디오를 로봇의 의사 동작 (pseudo-actions)으로 변환합니다. RoboCasa에서 72.8%, RoboTwin에서 91.1%를 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기