arXiv논문2026. 06. 15. 07:24

Ambient Diffusion Policy: 로보틱스에서의 하위 최적 데이터(Suboptimal Data)를 활용한 모방 학습

요약

로보틱스 모방 학습 시 품질이 낮은 하위 최적 데이터를 효과적으로 활용하는 Ambient Diffusion Policy를 제안합니다. 확산 모델의 노이즈 의존적 데이터 사용 방식을 통해 유용한 특징만을 추출하며, 대규모 데이터셋에서 기존 방식보다 뛰어난 성능을 입증했습니다.

핵심 포인트

하위 최적 데이터에서 유용한 특징만 추출하는 새로운 학습 방식 제안
확산 시간(diffusion times)에 따른 데이터 기여도 조절 메커니즘 도입
로봇 행동 데이터의 스펙트럼 멱법칙을 통한 이론적 정당화
Open X-Embodiment 데이터셋에서 기존 대비 최대 33% 성능 향상

우리는 로보틱스 분야에서 하위 최적 데이터(suboptimal data)로부터 모방 학습 (Imitation Learning)을 수행하기 위한 단순하고 원칙적인 방법인 Ambient Diffusion Policy를 제안합니다. 고품질의 작업 특화 로봇 데이터는 수집하는 데 비용과 시간이 많이 소요되는 반면, 품질이 낮거나 분포 외 (out-of-distribution) 시연을 포함하는 하위 최적 데이터셋은 풍부합니다. 로보틱스에서 이 두 가지 데이터 소스를 함께 학습(co-train)하는 기존 방식들은 하위 최적 샘플 내의 유의미한 특징과 해로운 특징을 분리하는 데 종종 실패합니다. 이와 대조적으로, 우리의 방법은 로보틱스 공동 학습에 새로운 축인 '노이즈 의존적 데이터 사용 (noise-dependent data usage)'을 도입함으로써 유용한 특징만을 추출합니다. Ambient Diffusion Policy는 학습 과정 중 하위 최적 데이터의 기여를 높은 확산 시간 (high diffusion times)과 낮은 확산 시간 (low diffusion times)으로만 제한합니다. 우리의 접근 방식을 엄격하게 정당화하기 위해, 우리는 먼저 로봇 행동 데이터가 스펙트럼 멱법칙 (spectral power law)을 따른다는 점을 관찰했습니다. 이는 우리가 활용하는 최적의 확산 정책 (optimal Diffusion Policy)에 두 가지 중요한 속성인 전역-지역 계층 구조 (global-to-local hierarchy)와 지역성 (locality)을 유도합니다. 우리는 단순화된 모델을 사용하여 이 논의를 이론적으로 공식화합니다. 실험을 통해 6가지 작업에 걸쳐 네 가지 유형의 하위 최적 행동 데이터(노이즈가 섞인 궤적, sim-to-real gap, 작업 불일치, 대규모 데이터 혼합)에 대한 Ambient Diffusion Policy의 유효성을 검증했습니다. 결과에 따르면, 이 방법은 임의의 하위 최적 데이터 소스로부터 효과적으로 학습함을 보여줍니다. 특히, 이질적인 데이터 품질과 비구조적 분포 변화 (unstructured distribution shifts)를 가진 대규모 데이터셋인 Open X-Embodiment로 확장했을 때, 기존의 공동 학습 (co-training) 베이스라인보다 최대 33% 더 우수한 성능을 보였습니다. 종합적으로, Ambient Diffusion Policy는 하위 최적 시연의 유용성을 높이고 로보틱스에서 사용 가능한 데이터 소스의 범위를 확장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Ambient Diffusion Policy: 로보틱스에서의 하위 최적 데이터(Suboptimal Data)를 활용한 모방 학습

요약

핵심 포인트

댓글