AnyBody: 임의의 키포인트 가이드를 통한 자유 형식의 전신 휴머노이드 제어
요약
임의의 신체 키포인트 부분 집합만으로 전신 휴머노이드를 제어할 수 있는 통합 컨트롤러 AnyBody를 제안합니다. 트랜스포머 기반 인코더와 잠재 동작 표현을 통해 모션 캡처의 한계를 극복하고 유연한 원격 조종 및 행동 학습을 가능하게 합니다.
핵심 포인트
- 임의의 키포인트 부분 집합을 지원하는 단일 잠재 동작 표현 학습
- 트랜스포머 키포인트 인코더를 통한 특권적 잠재 공간 정렬
- 경량 잔차 교정기를 활용한 다운스트림 태스크 전문화
- 이동 조작, 원격 조종, 장애물 도달 등 다양한 작업에서 효과 입증
우리는 배포 시점에 선택된 신체 키포인트 (body keypoints)의 임의의 부분 집합에 의해 구동되는 통합 전신 휴머노이드 컨트롤러인 AnyBody를 선보입니다. 기존의 물리 기반 트래커 (physics-based trackers)는 비용이 많이 드는 전신 모션 캡처 (motion capture)와 오류가 발생하기 쉬운 궤적 리타겟팅 (trajectory retargeting)에 의존하여 확장 가능한 데이터 수집 및 정책 학습 (policy learning)에 병목 현상을 일으키거나, 상체와 하체 제어를 별도의 계층적 표현 (hierarchical representations)으로 분해하여 이동 조작 (loco-manipulation)에 필요한 조정된 전신 동작을 희생합니다. 우리는 어떤 키포인트 부분 집합도 대응할 수 있는 단일 잠재 동작 표현 (latent motion representation)을 학습함으로써 이 간극을 메웁니다. 이를 달성하기 위해, 우리는 먼저 대규모 비정형 모션 코퍼스 (unstructured motion corpus)에서 특권적 교사 트래커 (privileged teacher tracker)를 학습시키고, 이를 잠재 공간 (latent space)이 단위 구 (unit sphere)인 결정론적 인코더-디코더 학생 모델 (deterministic encoder-decoder student)로 온라인 증류 (distill)합니다. 그런 다음 마스크드 셀프 어텐션 (masked self-attention)을 통해 신체 키포인트의 임의의 부분 집합을 수용하는 트랜스포머 키포인트 인코더 (transformer keypoint encoder)를 학습시켜 이를 특권적 잠재 공간 (privileged latent)에 정렬합니다. 또한, 동결된 디코더 (frozen decoder)를 모터 사전 정보 (motor prior)로 취급하고, 잠재 공간 내에서 경량 잔차 교정기 (lightweight residual corrector)를 사용하여 다운스트림 태스크 (downstream tasks)를 전문화합니다. 우리는 임의의 키포인트 부분 집합으로부터 대규모 인간 동작을 추적하고, 자유 형식 제어 (free-form control), 유연한 원격 조종 (teleoperating), 그리고 이동 (locomotion), 공중 쓰기 (in-air writing), 장애물 도달 (obstacle-reach)을 포함한 다운스트림 행동 학습을 통해 AnyBody의 효과를 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기