arXiv논문2026. 06. 10. 11:37

RoboNaldo: 동작 유도 커리큘럼 강화학습 (RL)을 통한 정확하고 안정적이며 강력한 휴머노이드 축구 슈팅

요약

RoboNaldo는 휴머노이드의 정확하고 강력한 축구 슈팅을 위해 동작 유도 커리큘럼 강화학습(RL) 프레임워크를 제안합니다. 3단계 커리큘럼을 통해 안정적인 킥 학습부터 움직이는 공에 대한 적응까지 점진적으로 최적화합니다. 시뮬레이션과 실제 Unitree G1 로봇 실험을 통해 기존 방식보다 높은 정확도와 속도를 입증했습니다.

핵심 포인트

3단계 동작 유도 커리큘럼 RL 프레임워크 제안
단일 인간 킥 참조를 활용한 점진적 최적화 방식
시뮬레이션 내 프리킥 오차 48.6% 감소 및 속도 2.96배 향상
실제 Unitree G1 로봇을 통한 실환경 성능 검증 완료

엘리트 수준의 휴머노이드 축구 슈팅은 전신 안정성, 높은 충격의 전신 상호작용, 그리고 목표물에 대한 정확도를 요구합니다. 동작 추적 기반의 강화학습 (Reinforcement Learning, RL)은 전신 움직임 조정의 안정성을 제공하지만, 고정된 참조값(reference)으로 인해 다양한 공의 위치와 타격 타이밍에 적응하기 어렵습니다. 반면, 작업 보상 (task reward) 기반의 RL은 아무런 정보 없이 처음부터 유효한 킥을 탐색하고 발견하는 데 어려움을 겪습니다. 따라서 우리는 높은 충격의 휴머노이드 상호작용을 위한 3단계 동작 유도 커리큘럼 RL 프레임워크인 RoboNaldo를 소개합니다. 단일 인간 킥 참조를 스캐폴드 (scaffold)로 사용하며, 최적화 과정을 슈팅 성능 쪽으로 점진적으로 이동시킵니다. 커리큘럼은 먼저 안정적인 전신 킥 사전 학습 (prior)을 수행한 다음, 공이 무작위 위치에 정지해 있는 프리킥 설정에 킥을 적응시키며, 마지막으로 이동 명령 (locomotion-command) 및 킥 트리거 (kick-trigger) 인터페이스를 통해 움직이는 공 슈팅으로 확장합니다. 훈련 중에는 상위 수준의 휴리스틱 플래너 (heuristic planner)가 이 인터페이스를 제어하며, 추론 시에는 다른 상위 수준 컨트롤러가 동일한 하위 수준 정책 (low-level policy)을 구동할 수 있습니다. 시뮬레이션에서 RoboNaldo는 기존 연구 베이스라인보다 프리킥 슛 오차는 48.6% 낮고, 슈팅 속도는 2.96배 더 높음을 입증했습니다. 온보드 인지 기능을 갖춘 Unitree G1을 이용한 실제 환경에서, RoboNaldo는 프리킥과 움직이는 공 케이스에서 각각 3m 거리로부터 평균 0.73m 및 0.86m의 목표 슈팅 오차를 달성했습니다. 또한 접촉 후 공의 속도는 13.10 m/s에 달하며, 이는 보고된 프로 선수의 오픈 플레이 슈팅 속도의 59-71% 수준입니다. 프로젝트 페이지: $\href{https://opendrivelab.com/RoboNaldo}{\text{opendrivelab.com/RoboNaldo}}$.

AI 자동 생성 콘텐츠

원문 바로가기

RoboNaldo: 동작 유도 커리큘럼 강화학습 (RL)을 통한 정확하고 안정적이며 강력한 휴머노이드 축구 슈팅

요약

핵심 포인트

댓글