로봇 학습을 위한 세계-작업 분해 (World-Task Factorization)
요약
로봇 학습의 일반화 성능을 높이기 위해 세계(World) 요인과 작업(Task) 요인을 구조적으로 분해하는 방법론을 제안합니다. 베이지안 모델 증거와 AICON 프레임워크를 통해 환경 속성과 작업 논리를 분리하여, 새로운 환경과 작업에 대한 제로샷 일반화 및 하드웨어 전이 성능을 입증했습니다.
핵심 포인트
- 세계 요인과 작업 요인의 구조적 분해를 통한 일반화 달성
- 베이지안 모델 증거를 활용한 비대칭적 공식화
- AICON 프레임워크를 통한 미분 가능한 그래프 구조 구현
- 분포 외(OOD) 구성에 대한 제로샷 일반화 성능 확인
- 재학습 없는 실제 하드웨어로의 성공적인 전이
로봇 학습 (Robot learning)은 새로운 제약 조건, 팀원, 그리고 환경의 조합에 일반화될 수 있는 정책 (policies)을 생성해야 합니다. 이를 달성하기 위해서는 정책을 구조적으로 분해 (factor)해야 하며, 이는 무엇이 일반화될 수 있는지, 무엇이 재학습을 필요로 하는지, 그리고 무엇이 얽힌 상태 (entangled)로 남을지를 결정하는 선택입니다. 기존 방법론들은 데이터 스케일링 (data scaling)을 통해 구조가 나타나기를 기대하는 방식부터, 계층 구조 (hierarchies), 기술 라이브러리 (skill libraries) 또는 학습된 전문화 (learned specializations)를 통해 수동으로 설계하는 방식까지 넓은 스펙트럼을 아우릅니다. 본 논문에서는 로보틱스에서 가장 근본적인 분해라고 주장하는 것, 즉 세계 (world)와 작업 (task)을 분리하는 것에 대해 연구합니다. 우리는 이 분해가 원칙적으로 타당한 조건을 조사합니다. 세계 요인 (World factors)은 체화된 시스템 (embodied system)과 환경의 속성이며, 의도 (intent)와는 독립적으로 존재합니다. 작업 요인 (Task factors)은 세계가 허용하는 범위 내에서 작업의 논리 (task's logic)에 의해 정의됩니다. 우리는 베이지안 모델 증거 (Bayesian model evidence)를 통해 이러한 비대칭성을 공식화합니다. 이는 데이터 생성 과정 (data-generating process)과 일치하며, 분석적 세계 모델 (analytical world model)을 통해 높은 가능도 (likelihood)를 유지하고, 작업 파라미터 (task parameters)에 대한 옥컴의 면도날 (Occam razor) 페널티를 줄여줍니다. 우리는 구성 가능하며 (compositional), 작업 특정 데이터 없이 작동하고, 액추에이터 (actuators)로 비용 기울기 (cost gradients)를 전파하는 재귀적 추정기 (recursive estimators)와 상호 연결의 미분 가능한 그래프인 AICON을, 기울기 경로를 조절하는 컴팩트하고 학습된 정책과 결합함으로써 이 분해를 구체화합니다. 기울기 (Gradients)는 두 요인 사이의 인터페이스 역할을 합니다. 기울기는 그래프를 통해 세계 구조를 전달하고 비용을 통해 작업 구조를 전달하여, 구조적 일반화를 유지하면서 저차원 학습 (low-dimensional learning)을 가능하게 합니다. 우리는 이질적인 로봇, 환경, 작업 논리 및 센서-운동 양식 (sensorimotor modalities)을 아우르는 세 가지 문제를 통해 세계/작업 분해를 테스트합니다. 우리의 프레임워크는 모든 설정에서 엔드 투 엔드 (end-to-end) 베이스라인 및 분석적 휴리스틱 (analytical heuristics)보다 뛰어난 성능을 보이며, 분포 외 (out-of-distribution) 구성에 대해 제로샷 (zero-shot) 일반화를 수행하고, 재학습 없이 실제 하드웨어로 전이 (transfer)됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기