본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 18. 07:30

ACE-Ego-0, VLA 사전 학습을 위한 1인칭 시점 인간 및 로봇 데이터 통합

요약

ACE-Ego-0는 VLA 사전 학습을 위해 인간과 로봇의 1인칭 시점 데이터를 통합한 모델입니다. 6,000시간 이상의 데이터를 활용해 인간의 비디오를 로봇의 행동으로 변환하며, RoboCasa와 RoboTwin 벤치마크에서 높은 성능을 입증했습니다.

핵심 포인트

  • 인간 및 로봇의 1인칭 시점 데이터 통합
  • 카메라 공간 정렬 및 신뢰도 인식 손실 기술 적용
  • 인간 비디오를 로봇의 의사 행동으로 변환 가능
  • RoboCasa 72.8%, RoboTwin 91.1% 성능 달성

ACE-Ego-0는 VLA (Vision-Language-Action) 사전 학습 (pretraining)을 위해 1인칭 시점 (egocentric)의 인간 및 로봇 데이터를 통합합니다.

6,000시간 이상의 혼합 데이터로 학습된 이 모델은 카메라 공간 정렬 (camera-space alignment) 및 신뢰도 인식 손실 (reliability-aware loss)을 통해 인간의 비디오를 로봇의 의사 행동 (pseudo-actions)으로 변환합니다. RoboCasa에서 72.8%, RoboTwin에서 91.1%를 달성했습니다. https://t.co/u3F92rrWFh

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0