본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 24. 11:01

RE4: 조작 모드(Manipulation Modes)를 활용한 객체 상호작용의 변형 인식 모방 (Transformation-aware

요약

RE4는 객체 상호작용을 위한 모방 학습 프레임워크로, 성능과 해석 가능성을 동시에 확보하는 것을 목표로 합니다. 자기 지도 학습 기반의 포즈 추정과 조작 모드 인식을 통해 변형된 시연을 실행하는 4단계 프로세스를 제안합니다.

핵심 포인트

  • 성능과 해석 가능성을 모두 보존하는 RE4 프레임워크 제안
  • 자기 지도 학습을 통한 경량화된 모델 프리 포즈 추정
  • 조작 모드 인식, 변형, 재계획, 실행의 4단계 구조
  • Push-T 및 Robomimic 벤치마크를 통한 강건성 검증

객체 상호작용(Object interaction) 작업은 모방 학습(Imitation learning) 발전의 중심이 되어 왔습니다. 확산 모델(Diffusion) 및 흐름 기반(Flow-based) 변형 모델이 주도하는 엔드투엔드(End-to-end) 방식은 성능 면에서 비약적인 발전을 보여주었으나, 해석 가능성(Interpretability)을 희생했습니다. 객체 중심(Object-centric) 및 포즈 정보 기반(Pose-informed) 변형 모델들은 조작 작업의 시연으로부터 학습하는 데 역할을 해왔습니다. 본 논문에서는 성능과 해석 가능성을 모두 보존하면서, 원칙적인 조작 이론을 재활용하는 프레임워크를 구성하는 것을 목표로 객체 상호작용을 위한 몇 가지 현대적인 모방 학습 벤치마크를 재검토합니다. 이미지 관측(Image observations)의 경우, 모방 학습을 위해 사용 가능한 시연 데이터에 대한 자기 지도 학습(Self-supervision)을 사용하여 대상 객체의 모델 프리(Model-free) 포즈 추정(Pose estimation)을 위한 경량화된 학습을 제안합니다. 이 정보는 이후 조작 모드 인식 시연 검색(Manipulation mode-aware retrieval of a demonstration), 모드 인식 변형(Mode-aware transformation), 모드 제약 조건을 유지하면서 검색 지점과 연결되는 재계획(Replan) 단계, 그리고 마지막으로 변형된 시연의 실행(Rolling out)에 사용됩니다. 이들은 제안된 RE4 프레임워크의 네 가지 핵심 단계로 구성되며, Push-T 및 Robomimic의 상태 기반(State-based) 및 이미지 기반(Image-based) 벤치마크를 통해 평가되었습니다. 이미지 기반 Push-T의 희소 데이터 영역(Sparse data regions)을 평가하는 적대적 벤치마크(Adversarial benchmark)는 강건성(Robustness)을 보여주며, 이는 데이터가 적은 환경(Low-data regime)에서의 실험 결과로 더욱 뒷받침됩니다. 본 연구는 단순하고 해석 가능한 구성 요소들을 사용하여 조작 기술을 학습하는 데 있어 유망한 가능성을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0