X요약2026. 05. 29. 16:54

몇 분 분량의 인간 중심 비디오를 통한 제로샷 (Zero-shot) 로봇 학습: 대량의 시연 데이터 없이도 로봇이 조작 작업을 학습하는 방법

요약

HumanEgo는 대량의 시연 데이터 없이 1인칭 비디오만으로 로봇이 조작 작업을 학습할 수 있는 제로샷 학습 기술을 제안합니다. Project Aria 안경으로 촬영된 비디오에서 SLAM과 손 추적을 통해 동작을 추출하고 Flow Matching으로 학습합니다.

핵심 포인트

1인칭 비디오 기반의 제로샷 로봇 조작 학습 가능
Project Aria 안경을 활용한 데이터 수집
MPS를 이용한 SLAM 및 손 추적 수행
Flow Matching 기법을 통한 동작 학습

몇 분 분량의 인간 중심 (Egocentric) 비디오를 통한 제로샷 (Zero-shot) 로봇 학습, 대량의 시연 데이터 없이도 로봇이 조작 작업을 학습할 수 있습니다.
https://
gitub.com/TX-Leo/HumanEgo

HumanEgo가 하는 일은 사람이 안경을 쓰고 촬영한 1인칭 비디오에서 조작 동작을 추출한 다음, 이를 로봇으로 제로샷 (Zero-shot) 전이하여 실행하는 것입니다. 핵심은 Project Aria 안경으로 비디오를 촬영하고, MPS로 SLAM (Simultaneous Localization and Mapping) 및 손 추적 (Hand Tracking)을 수행한 뒤, Flow Matching을 사용하여 학습하는 것입니다.

AI 프로그래밍 어시스턴트를 위한 113개의 브랜드 스타일 독립형 HTML 디자인 레퍼런스(웹 페이지 91개 + iOS 22개)를 제공합니다. 설치 후 자연어로 브랜드 스타일을 설명하기만 하면 해당하는 페이지를 생성할 수 있습니다.
https://
gitub.com/yzfly/awesome-
design-html
...
또한 20개의 중국 브랜드도 추가되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

몇 분 분량의 인간 중심 비디오를 통한 제로샷 (Zero-shot) 로봇 학습: 대량의 시연 데이터 없이도 로봇이 조작 작업을 학습하는 방법

요약

핵심 포인트

댓글