요인 분해 확산 정책 (Factored Diffusion Policies): 단일 스코어 네트워크를 통한 구성적 일반화 로봇 제어
요약
단일 공유 확산 네트워크를 사용하여 로봇 제어의 구성적 일반화를 달성하는 '요인 분해 확산 정책'을 제안합니다. 요인별 널 토큰 드롭아웃을 통해 학습 예산을 획기적으로 줄이면서도 미학습 환경에서 높은 성능과 안정성을 입증했습니다.
핵심 포인트
- 단일 공유 네트워크로 요인별 가산적 스코어 분해 구현
- 학습 예산을 요인 기수의 곱에서 합으로 대폭 절감
- 궤적-튜브 인증을 통한 폐루프 상태-궤적 안정성 보장
- 드론 레이싱 실험에서 미학습 환경에 대한 높은 제로샷 전이 성능 확인
로봇 작업은 일반적으로 잡아야 할 물체, 피해야 할 장애물, 목표물의 색상 등과 같은 요인(factor)들의 튜플로 지정됩니다. 모든 요인 값의 조합에 대해 전문가 시연(expert demonstrations)을 수집하는 것은 조합론적으로 증가하게 됩니다. 본 논문에서는 요인 분해 확산 정책(factored diffusion policies)을 제시합니다. 이는 요인별 널 토큰 드롭아웃(per-factor null-token dropout)을 사용하여 학습된 단일 공유 확산 네트워크(diffusion network)로, 추론 시 스코어(score)가 요인들에 따라 가산적으로 분해됩니다. 행동-관측(action-observation) 쌍이 주어졌을 때 요인들 사이에 근사적 조건부 독립(approximate conditional independence)이 성립한다면, 이 구성은 유계된 균등 오차(bounded uniform error)를 가지며 실제 결합 스코어(joint score)를 근사하며, 학습-작업 예산을 요인 기수(factor cardinalities)의 곱에서 합으로 줄여줍니다. 궤적-튜브 인증(trajectory-tube certificate)은 이 스코어 수준의 경계(score-level bound)를 역시간 샘플링 상미분 방정식(reverse-time sampling ODE)과 수축 추적 제어기(contracting tracking controller)를 통해 폐루프 상태-궤적 튜브(closed-loop state-trajectory tube)로 연결하며, 이 튜브의 반경은 ODE-민감도 상수(ODE-sensitivity constant)와 요인별 스코어-오차 예산(per-factor score-error budget)의 곱으로 분해됩니다. 별도로 학습된 네트워크들을 결합하는 제어용 구성적 확산(compositional-diffusion) 방법들과 달리, 우리는 하나의 공유 네트워크를 사용합니다. 드론 레이싱 실험을 통해 일반화 경계(generalization bound)와 인증(certificate)을 모두 확인했습니다. 상태 기반 멀티 게이트 레이싱(state-based multi-gate racing)에서 요인 분해 정책은 오라클(oracle)과 일치하는 90%의 미학습 게이트 통과율을 기록한 반면, K-네트워크 구성 베이스라인은 3%로 무너졌습니다. 시각 기반 단일 게이트 통과(vision-based single-gate traversal)에서는 미학습 장소로 제로샷(zero-shot) 전이가 가능하여 성공률은 11.7%p 향상되었고 충돌률은 2.4배 감소했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기