arXiv논문2026. 05. 07. 12:50

LineRides: 자전거 로봇 스텝을 위한 라인 가이드 강화 학습

요약

LineRides는 사용자 제공 공간 가이드라인과 희소 키 방향(key-orientations)만을 사용하여 자전거 로봇의 다양한 스텝 동작을 학습하는 새로운 라인 가이드 강화 학습 프레임워크입니다. 기존 방법들이 데모나 명시적 타이밍에 의존하는 한계를 극복하며, 물리적으로 불가능한 경로도 추적 마진을 통해 처리할 수 있습니다. Ultra Mobility Vehicle(UMV) 테스트에서 LineRides는 정상 주행과 MiniHop, LargeHop 등 5가지 스텝 동작 간의 원활하고 명령 기반 전환 능력을 입증했습니다.

핵심 포인트

LineRides는 데모나 명시적 타이밍 없이 공간 가이드라인 및 키 방향만으로 로봇 스텝을 학습하는 혁신적인 RL 프레임워크를 제공합니다.
추적 마진(tracking margin)과 시간적 모호성 해결 기법을 사용하여 물리적으로 불가능하거나 부정확한 가이드라인도 효과적으로 처리할 수 있습니다.
Ultra Mobility Vehicle (UMV)에서 MiniHop, LargeHop 등 5가지 종류의 스텝 동작을 성공적으로 수행하며 명령 기반 제어 능력을 입증했습니다.
이 프레임워크는 자전거 로봇과 같은 민첩한 이동체(Agile Locomotion)의 강화 학습 문제를 해결하는 데 기여합니다.

강화 학습 (RL) 을 통한 민첩한 로봇 조작을 위한 보상 함수 설계는 여전히 어렵습니다. 또한, 데모 기반 접근법은 새로운 플랫폼이나 극한의 스텝에 대한 참조 동작이 필요하며, 이는 종종 이용 불가능합니다. 우리는 사용자 제공 공간 가이드라인과 희소 키 방향 (key-orientations) 을 사용하여 데모나 명시적 타이밍 없이 다양한 명령 가능한 스텝 동작을 습득할 수 있도록 하는 라인 가이드 학습 프레임워크인 LineRides 를 제시합니다.

LineRides 는 물리적으로 불가능한 가이드라인을 제어된 편차를 허용하는 추적 마진 (tracking margin) 을 사용하여 처리하고, 가이드라인을 따라 이동한 거리를 측정하여 시간적 모호성을 해결하며, 위치 및 시퀀스 기반 키 방향을 통해 동작 세부 사항을 해명합니다. 우리는 Ultra Mobility Vehicle (UMV) 에서 LineRides 를 평가하였으며, 제안된 방법으로 훈련된 정책은 정상 주행과 스텝 실행 사이의 원활한 전환을 지원하여 명령에 따라 MiniHop, LargeHop, ThreePointTurn, Backflip, DriftTurn 등 5 가지 다른 스텝을 수행할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

LineRides: 자전거 로봇 스텝을 위한 라인 가이드 강화 학습

요약

핵심 포인트

댓글