ATOM-Bench: 조작 정책의 원자적 기술(Atomic Skills) 및 조합적 일반화(Compositional
요약
로봇 조작 정책의 원자적 기술과 조합적 일반화 능력을 평가하기 위한 새로운 벤치마크인 ATOM-Bench를 소개합니다. 이 벤치마크는 모터 및 지시 원자로 작업을 분해하여 로봇이 학습된 기술을 새로운 조합에 얼마나 잘 적용하는지 진단합니다.
핵심 포인트
- 로봇 조작 정책의 원자적 기술 및 조합적 일반화 평가를 위한 ATOM-Bench 제안
- 모터 원자와 지시 원자로 구성된 30개의 원자적 작업 및 24개의 조합적 작업 포함
- 원자적 점수(AS)와 조합적 실패 비율(CFS)을 통한 실패 원인 정밀 진단
- 현재 정책들이 미세한 모터 실행 및 논리적 필터링에서 한계가 있음을 발견
범용 조작 정책(Generalist manipulation policies)은 로봇 제어를 위한 파운데이션 모델(Foundation models)로 점점 더 제시되고 있지만, 이들의 실세계 일반화(Real-world generalization)를 진단하는 것은 여전히 어렵습니다. 특정 정책이 시연된 작업에는 성공할 수 있지만, 미세한 원자적 기술(Atomic skills)을 실행하거나 학습된 기술을 새로운 작업 구조에서 재조합하는 데는 여전히 실패할 수 있습니다. 우리는 조작 정책의 원자적 기술과 조합적 일반화(Compositional generalization)를 모두 평가하기 위한 실세계 벤치마크인 \textbf{ATOM-Bench}를 소개합니다. ATOM-Bench는 테이블탑 조작(Tabletop manipulation)을 모터 원자(Motor atoms)와 지시 원자(Instruction atoms)로 분해하며, 단일 팔(Single-arm) 및 이중 팔(Dual-arm) 로봇 트랙 전반에 걸쳐 30개의 원자적 작업(Atomic tasks)과 24개의 홀드아웃 조합적 작업(Held-out compositional tasks)을 포함합니다. 우리는 원자적 미세 조정(Atomic fine-tuning)을 위해 3,000개의 인간 시연(Human demonstrations)을 수집하였으며, 재현 가능한 실세계 평가를 지원하기 위해 시연 데이터와 평가 롤아웃(Rollout) 데이터를 모두 공개합니다. 정책은 원자적 작업에서 미세 조정되며, 원자적 기술 습득과 홀드아웃 조합적 작업 모두에서 평가됩니다. 우리는 또한 약한 원자적 기술로 인한 실패와 제한된 조합적 재사용(Compositional reuse)으로 인한 실패를 구분하기 위해 원자적 점수(Atomic Score, AS)와 조합적 실패 비율(Compositional Failure Share, CFS)을 추가로 도입합니다. 5개의 대표적인 조작 정책에 대해 2,700회의 물리적 롤아웃(Physical rollouts)을 수행한 결과, 현재의 정책들은 단순한 지시어 접지(Instruction-grounding) 기술은 습득할 수 있지만, 미세한 모터 원자(Motor atoms), 수 세기(Counting), 그리고 논리적 필터링(Logical filtering)에는 여전히 어려움을 겪고 있음을 발견했습니다. 더 중요한 것은, 강력한 원자적 성능이 홀드아웃 조합적 작업으로 안정적으로 전이(Transfer)되지 않는다는 점입니다. ATOM-Bench는 실패가 약한 모터 실행(Motor execution), 부족한 지시어 접지(Instruction grounding), 또는 제한된 조합적 재사용에서 발생하는지를 연구하기 위한 진단 테스트베드를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기