arXiv논문2026. 06. 30. 12:54

VLK: 재구성된 장면에서의 합성 상호작용을 통한 휴머노이드 이동-조작 학습

요약

3D Gaussian Splatting을 활용해 재구성된 장면에서 시각-언어-키네마틱스(VLK) 데이터를 합성하여 휴머노이드의 이동-조작 학습을 지원하는 연구입니다. 대규모 데이터 부족 문제를 해결하기 위해 합성된 감독 신호를 사용하여 Unitree G1 로봇의 실질적인 동작 성능을 입증했습니다.

핵심 포인트

3D Gaussian Splatting 기반의 실내 환경 재구성
시각-언어-키네마틱스(VLK) 합성 데이터 생성 파이프라인
인간 개입 없는 48,000개의 궤적 데이터 생성
Unitree G1 로봇을 통한 sim-to-real 성능 검증

인지 기반(Perception-based) 휴머노이드 이동-조작(loco-manipulation)은 자기중심적 관찰(egocentric observations)과 작업 지시를 전신 동작(whole-body motion)에 연결하는 것을 필요로 합니다. 이러한 매핑을 학습하려면 동기화된 자기중심적 이미지, 언어 명령, 그리고 로봇 호환 키네마틱 궤적(kinematic trajectories)이 필요하지만, 기존의 어떤 데이터 소스도 이러한 완전한 튜플(tuple)을 대규모로 제공하지 않습니다. 우리는 재구성된 장면(reconstructed scenes)에서 시각-언어-키네마틱스(vision-language-kinematics, VLK) 감독 신호를 합성하여 이 병목 현상을 해결합니다. 우리의 파이프라인은 3D Gaussian Splatting을 활용하여 미터법 규모(metric-scale)의 실내 환경을 재구성하고, 특권적 장면 정보(privileged scene information)를 사용하여 내비게이션 및 객체 상호작용 궤적을 합성하며, 사후에 쌍을 이룬 자기중심적 관찰을 렌더링합니다. 우리는 인간의 개입 없이 48,000개의 쌍을 이룬 궤적을 생성하였으며, 단기 지평(short-horizon) 전신 키네마틱 궤적을 예측하는 VLK 정책을 학습시킵니다. 전신 트래커(whole-body tracker)는 이러한 예측을 실제 휴머노이드의 동작으로 변환합니다. 우리는 내비게이션 및 단일 객체 운반을 수행하는 실제 Unitree G1에서 평가를 진행하였으며, 재구성된 장면에서의 합성된 상호작용이 sim-to-real 인지 기반 휴머노이드 이동-조작을 위한 효과적인 감독을 제공함을 입증했습니다. 프로젝트 웹사이트: https://vision-language-kinematics.github.io/

AI 자동 생성 콘텐츠

원문 바로가기

VLK: 재구성된 장면에서의 합성 상호작용을 통한 휴머노이드 이동-조작 학습

요약

핵심 포인트

댓글