arXiv논문2026. 06. 16. 22:50

ATOM-Bench: 조작 정책의 원자적 기술(Atomic Skills) 및 조합적 일반화(Compositional

요약

로봇 조작 정책의 원자적 기술과 조합적 일반화 능력을 평가하기 위한 새로운 벤치마크인 ATOM-Bench를 소개합니다. 이 벤치마크는 모터 및 지시 원자로 작업을 분해하여 로봇이 학습된 기술을 새로운 조합에 얼마나 잘 적용하는지 진단합니다.

핵심 포인트

로봇 조작 정책의 원자적 기술 및 조합적 일반화 평가를 위한 ATOM-Bench 제안
모터 원자와 지시 원자로 구성된 30개의 원자적 작업 및 24개의 조합적 작업 포함
원자적 점수(AS)와 조합적 실패 비율(CFS)을 통한 실패 원인 정밀 진단
현재 정책들이 미세한 모터 실행 및 논리적 필터링에서 한계가 있음을 발견

범용 조작 정책(Generalist manipulation policies)은 로봇 제어를 위한 파운데이션 모델(Foundation models)로 점점 더 제시되고 있지만, 이들의 실세계 일반화(Real-world generalization)를 진단하는 것은 여전히 어렵습니다. 특정 정책이 시연된 작업에는 성공할 수 있지만, 미세한 원자적 기술(Atomic skills)을 실행하거나 학습된 기술을 새로운 작업 구조에서 재조합하는 데는 여전히 실패할 수 있습니다. 우리는 조작 정책의 원자적 기술과 조합적 일반화(Compositional generalization)를 모두 평가하기 위한 실세계 벤치마크인 \textbf{ATOM-Bench}를 소개합니다. ATOM-Bench는 테이블탑 조작(Tabletop manipulation)을 모터 원자(Motor atoms)와 지시 원자(Instruction atoms)로 분해하며, 단일 팔(Single-arm) 및 이중 팔(Dual-arm) 로봇 트랙 전반에 걸쳐 30개의 원자적 작업(Atomic tasks)과 24개의 홀드아웃 조합적 작업(Held-out compositional tasks)을 포함합니다. 우리는 원자적 미세 조정(Atomic fine-tuning)을 위해 3,000개의 인간 시연(Human demonstrations)을 수집하였으며, 재현 가능한 실세계 평가를 지원하기 위해 시연 데이터와 평가 롤아웃(Rollout) 데이터를 모두 공개합니다. 정책은 원자적 작업에서 미세 조정되며, 원자적 기술 습득과 홀드아웃 조합적 작업 모두에서 평가됩니다. 우리는 또한 약한 원자적 기술로 인한 실패와 제한된 조합적 재사용(Compositional reuse)으로 인한 실패를 구분하기 위해 원자적 점수(Atomic Score, AS)와 조합적 실패 비율(Compositional Failure Share, CFS)을 추가로 도입합니다. 5개의 대표적인 조작 정책에 대해 2,700회의 물리적 롤아웃(Physical rollouts)을 수행한 결과, 현재의 정책들은 단순한 지시어 접지(Instruction-grounding) 기술은 습득할 수 있지만, 미세한 모터 원자(Motor atoms), 수 세기(Counting), 그리고 논리적 필터링(Logical filtering)에는 여전히 어려움을 겪고 있음을 발견했습니다. 더 중요한 것은, 강력한 원자적 성능이 홀드아웃 조합적 작업으로 안정적으로 전이(Transfer)되지 않는다는 점입니다. ATOM-Bench는 실패가 약한 모터 실행(Motor execution), 부족한 지시어 접지(Instruction grounding), 또는 제한된 조합적 재사용에서 발생하는지를 연구하기 위한 진단 테스트베드를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

ATOM-Bench: 조작 정책의 원자적 기술(Atomic Skills) 및 조합적 일반화(Compositional

요약

핵심 포인트

댓글