arXiv논문2026. 05. 20. 11:00

ARC-RL: ARC Raiders에서 영감을 받은 강화학습 (Reinforcement Learning) 플레이그라운드

요약

ARC-RL은 게임 ARC Raiders의 로봇 디자인에서 영감을 받은 네 가지 MuJoCo 기반 연속 제어 환경 세트를 소개합니다. 이 플레이그라운드는 다양한 형태의 다족 보행 로봇을 위해 통일된 관측 및 보상 함수 체계를 제공하며, 표준 온라인 알고리즘과 사전 데이터 증강 방법론의 성능을 비교 연구합니다.

핵심 포인트

ARC Raiders의 캐릭터를 모티브로 한 4종의 다양한 다족 보행 로봇(Queen, Bastion, Tick, Leaper) 환경 제공
통일된 관측 템플릿, 행동 규약 및 단일 폐형식(closed-form) 다중 구성 보상 함수 설계
모션 캡처 데이터 없이도 동작 가능한 보상 함수와 CPG 데몬스트레이터를 통한 오프라인-투-온라인 학습 지원
SAC, SPEQ, SOPE 등 다양한 강화학습 알고리즘의 형태적 다양성 대응 능력 검증

다족 보행 (legged locomotion)을 위한 강화학습 (Reinforcement Learning, RL)은 실제 상용 하드웨어에서 일관되게 유도된 형태를 가진 다중 구성 보상 함수 (multi-component reward functions) 및 물리 엔진 벤치마크의 스택으로 성숙해 왔습니다. 그러나 게임 NPC는 Sim-to-Real 로보틱스에는 존재하지 않는 스타일적 제약에 묶여 있으며, 통상적으로 실제 로봇에 대응하는 모델이 없는 생명체의 형태를 취합니다. 우리는 ARC Raiders의 베스티어리 (bestiary)에서 영감을 받은 로봇 형태를 특징으로 하는 네 가지 MuJoCo 연속 제어 (continuous-control) 환경 세트인 ARC-RL을 소개합니다: 18-DoF의 키가 큰 육각보행 로봇 Queen, 12-DoF의 장갑 육각보행 로봇 Bastion, 18-DoF의 소형 육각보행 로봇 Tick, 그리고 12-DoF의 4족 보행 로봇 Leaper입니다. 네 로봇 모두 통일된 관측 템플릿 (observation template), 행동 규약 (action convention), 시뮬레이션 케이던스 (simulation cadence), 그리고 형태별 변동성이 소수의 가중치와 파라미터에만 존재하는 단일 폐형식 (closed-form) 다중 구성 보상 함수를 공유합니다. 이 보상 함수는 속도 추적 텐트 (velocity-tracking tent), 건강한 생존 보너스 (healthy survive bonus), 위상 고정 보행 준수 보너스/비용 쌍 (phase-locked gait-compliance bonus/cost pair), 행동 정규화 항 (action regularisers), 세 가지 안전 페널티 (safety penalties), 그리고 자세 앵커 (posture anchor)를 융합하며, 모션 캡처 (motion-capture) 데이터는 어떤 시점에도 보상에 입력되지 않습니다. 우리는 추가적으로 형태별로 수작업으로 제작된 중앙 패턴 생성기 (Central Pattern Generator, CPG) 데몬스트레이터를 제공하며, 이는 고정된 전문가 참조 (expert references)이자 오프라인-투-온라인 (offline-to-online) 학습을 위한 사전 데이터 (prior data)의 소스로 기능합니다. 이 플레이그라운드에서 우리는 표준 온라인 알고리즘 (SAC, SPEQ, SOPE-EO)과 사전 데이터로 증강된 방법론 (SACfD, SPEQ-O2O, SOPE)을 비교하는 통제된 경험적 연구를 수행하며, 각 패러다임이 플레이그라운드의 형태적 다양성과 애니메이션 스타일의 스타일적 제약에 어떻게 대처하는지 특성화합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ARC-RL: ARC Raiders에서 영감을 받은 강화학습 (Reinforcement Learning) 플레이그라운드

요약

핵심 포인트

댓글