arXiv논문2026. 05. 22. 11:29

요인 분해 확산 정책 (Factored Diffusion Policies): 단일 스코어 네트워크를 통한 구성적 일반화 로봇 제어

요약

단일 공유 확산 네트워크를 사용하여 로봇 제어의 구성적 일반화를 달성하는 '요인 분해 확산 정책'을 제안합니다. 요인별 널 토큰 드롭아웃을 통해 학습 예산을 획기적으로 줄이면서도 미학습 환경에서 높은 성능과 안정성을 입증했습니다.

핵심 포인트

단일 공유 네트워크로 요인별 가산적 스코어 분해 구현
학습 예산을 요인 기수의 곱에서 합으로 대폭 절감
궤적-튜브 인증을 통한 폐루프 상태-궤적 안정성 보장
드론 레이싱 실험에서 미학습 환경에 대한 높은 제로샷 전이 성능 확인

로봇 작업은 일반적으로 잡아야 할 물체, 피해야 할 장애물, 목표물의 색상 등과 같은 요인(factor)들의 튜플로 지정됩니다. 모든 요인 값의 조합에 대해 전문가 시연(expert demonstrations)을 수집하는 것은 조합론적으로 증가하게 됩니다. 본 논문에서는 요인 분해 확산 정책(factored diffusion policies)을 제시합니다. 이는 요인별 널 토큰 드롭아웃(per-factor null-token dropout)을 사용하여 학습된 단일 공유 확산 네트워크(diffusion network)로, 추론 시 스코어(score)가 요인들에 따라 가산적으로 분해됩니다. 행동-관측(action-observation) 쌍이 주어졌을 때 요인들 사이에 근사적 조건부 독립(approximate conditional independence)이 성립한다면, 이 구성은 유계된 균등 오차(bounded uniform error)를 가지며 실제 결합 스코어(joint score)를 근사하며, 학습-작업 예산을 요인 기수(factor cardinalities)의 곱에서 합으로 줄여줍니다. 궤적-튜브 인증(trajectory-tube certificate)은 이 스코어 수준의 경계(score-level bound)를 역시간 샘플링 상미분 방정식(reverse-time sampling ODE)과 수축 추적 제어기(contracting tracking controller)를 통해 폐루프 상태-궤적 튜브(closed-loop state-trajectory tube)로 연결하며, 이 튜브의 반경은 ODE-민감도 상수(ODE-sensitivity constant)와 요인별 스코어-오차 예산(per-factor score-error budget)의 곱으로 분해됩니다. 별도로 학습된 네트워크들을 결합하는 제어용 구성적 확산(compositional-diffusion) 방법들과 달리, 우리는 하나의 공유 네트워크를 사용합니다. 드론 레이싱 실험을 통해 일반화 경계(generalization bound)와 인증(certificate)을 모두 확인했습니다. 상태 기반 멀티 게이트 레이싱(state-based multi-gate racing)에서 요인 분해 정책은 오라클(oracle)과 일치하는 90%의 미학습 게이트 통과율을 기록한 반면, K-네트워크 구성 베이스라인은 3%로 무너졌습니다. 시각 기반 단일 게이트 통과(vision-based single-gate traversal)에서는 미학습 장소로 제로샷(zero-shot) 전이가 가능하여 성공률은 11.7%p 향상되었고 충돌률은 2.4배 감소했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

요인 분해 확산 정책 (Factored Diffusion Policies): 단일 스코어 네트워크를 통한 구성적 일반화 로봇 제어

요약

핵심 포인트

댓글