힘 유도 학습(Force-Guided Learning)을 통한 팔이 없는 이족 보행 바퀴 로봇의 견고한 낙하 회복
요약
팔이 없는 이족 보행 바퀴 로봇의 낙하 회복을 위해 힘 유도 학습(FTSR) 프레임워크를 제안합니다. 제약 조건 강화학습과 교사-학생 아키텍처를 통해 외부 보조 힘에 의존하지 않고 스스로 자세를 회복하는 전략을 학습합니다.
핵심 포인트
- FTSR 프레임워크를 통한 팔 없는 로봇의 낙하 회복 구현
- 제약 조건 강화학습을 활용한 점진적 힘 의존도 감소
- 높이 점진적 단계별 보상을 통한 자세 안정화 유도
- 실제 로봇 배포 및 고자유도 휴머노이드로의 일반화 성공
낙하 회복(Fall recovery)은 자율적인 다리 보행(legged locomotion)에 있어 매우 중요합니다. 기존 방법들은 휴머노이드(humanoids)나 사족 보행 로봇(quadrupeds)과 같은 일부 다리 로봇들이 팔을 활용하거나 여러 다리를 조정하여 지지력(support forces)을 생성함으로써 다양한 자세에서 낙하 회복이 가능하다는 것을 입증해 왔습니다. 지지 보조를 제공할 팔이나 다른 다리가 없는 경우, 이족 보행 바퀴 로봇(bipedal-wheeled robot)은 오로지 다리의 구동(actuation)에만 의존해야 하므로 회복이 특히 어렵습니다. 이를 해결하기 위해, 우리는 FTSR(Force-guided Teacher-student framework with Stage-wise Rewards)을 소개합니다. 힘 유도(force-guided) 방식은 시뮬레이션 학습 동안 로봇의 실시간 높이와 직접적으로 상관관계가 있는 외부 보조 힘(external auxiliary force)을 구축하며, 이 힘을 최적화 가능한 제약 조건(optimizable constraint)으로 명시적으로 공식화합니다. 제약 조건 강화학습(constrained reinforcement learning)을 통해, 정책(policy)은 힘에 대한 의존도를 점진적으로 줄이고 신체 높이를 높이도록 유도되어, 지지를 위한 팔이 없음에도 불구하고 내부적인 회복 전략을 개발합니다. 높이 점진적 단계별 보상(Height-progressive stage-Wise rewards)은 회복 중 자세 안정화와 지속적인 보행으로의 전환을 점진적으로 구조화하며, 이는 힘의 효과와 회복 역학(recovery dynamics)에 대한 특권 정보(privileged knowledge)를 증류(distilling)하는 교사-학생(teacher-student) 아키텍처와 통합됩니다. 시뮬레이션 학습 후, 정책은 실제 팔이 없는 이족 보행 바퀴 로봇에 배포되어 광범위하게 평가되었습니다. 실험을 통해 다양한 도전적인 조건에서도 견고하고 신뢰할 수 있는 낙하 회복을 확인하였으며, 회복 후의 전체적인 동작 능력을 유지하면서도 강력한 환경 적응성과 동작 견고성(motion robustness)을 입증했습니다. 또한 이 프레임워크는 고자유도(high-DOF) 휴머노이드에도 효과적으로 일반화되어 실질적인 범용성을 확인했습니다. 프로젝트 페이지는 https://2350575870.github.io/force-guided.github.io/ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기