UMI 읽기: 로봇 없이 수집한 데모가 왜 실기(Real Robot)로 전이될 수 있는가

피지컬 AI (Physical AI) 관련하여 읽은 논문을 자신의 비망록으로서 정리해 나가는 시리즈입니다.

이번에는 **UMI (Universal Manipulation Interface)**를 다룹니다.

참고로, 어디까지나 제가 읽고 이해한 내용의 정리입니다. 오류나 보충할 점이 있다면 댓글로 지적해 주시면 감사하겠습니다.

대상 논문: Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots

저자: Cheng Chi, Zhenjia Xu, Chuer Pan, Eric Cousineau, Benjamin Burchfiel, Siyuan Feng, Russ Tedrake, Shuran Song (Stanford / Columbia / Toyota Research Institute)

arXiv: 2402.10329 (2024년 2월)

프로젝트 (OSS): https://umi-gripper.github.io

TL;DR

로봇 본체를 사용하지 않고, GoPro를 장착한 핸드헬드 그리퍼 (Handheld Gripper)로 사람이 그 자리에서 데모를 수집하며, 그 데이터로부터 기종에 의존하지 않는 정책 (Policy)을 학습하여 여러 로봇에 탑재할 수 있도록 한 「데이터 수집 + 정책 학습」 프레임워크입니다. 발명의 주된 전장은 움직이는 방법이 아니라 데이터를 수집하는 방법입니다.

전체상

무엇이 새로운가 (기존과의 차이점)

UMI의 새로움은 새로운 모델이나 알고리즘이 아니라 데이터를 수집하는 방법 그 자체에 있습니다.

데이터 수집 방법으로서 지금까지 주로 알려져 있었던 것은 다음 두 가지였습니다.

텔레오퍼레이션 (Teleoperation, 실기를 원격 조작하여 데모 수집): 직접 로봇으로 전이(Transfer)할 수 있지만, 실기와 숙련된 조작자가 필요하기 때문에 비용이 높고 수집할 수 있는 환경이 제한적이다.
인간의 영상: 양은 확보할 수 있지만, 인간과 로봇의 신체적 차이 (Embodiment Gap)로 인해 동작이 전이되기 어렵다.

UMI는 「핸드헬드 그리퍼로 수집한다」는 중간적인 접근 방식을, 수집한 데이터가 그대로 실기의 정책 (Policy)으로 전이될 수 있는 수준까지 성립시켰습니다. 이 점이 기존의 핸드헬드 그리퍼 연구와 비교하여 크게 진보한 부분입니다.

기술적인 핵심은 **상대 궤도에서의 행동 표현 (Action Representation in Relative Trajectories)**과 추론 시 레이턴시 매칭 (Inference Latency Matching) 두 가지입니다. 이를 통해 정책이 특정 로봇에 의존하지 않게 되어 (기종 비의존), 하나의 데이터로부터 여러 실기에 교체 탑재할 수 있게 되었습니다.

무엇을 해결한 논문인가

로봇에게 복잡한 조작을 가르치기 위한 데이터 수집 방법으로서, 지금까지 표준으로 알려져 있었던 것은 주로 두 가지였으며, 둘 다 약점이 있었습니다.

텔레오퍼레이션 (Teleoperation, 실로봇을 원격 조작하여 데모 수집): 직접 로봇으로 전이할 수 있지만, 하드웨어와 숙련된 조작자의 비용이 높고 수집할 수 있는 환경이 제한적이다.
인간의 영상 (YouTube 등): 양과 다양성은 확보되지만, 인간과 로봇 사이에 큰 embodiment gap (신체적 차이)이 있어 동작이 전이되기 어렵다.

그 중간 단계로서 「센서가 부착된 핸드헬드 그리퍼」도 이전부터 있었습니다. embodiment gap을 억제하면서 간편하게 수집할 수 있는, 장점만을 취한 방법입니다. 다만, 수집한 데이터가 로봇으로 잘 전이되지 않는다는 과제가 있어, 결국 할 수 있는 것은 단순한 잡기나 정지 상태에 가까운 pick & place 정도에 그쳤습니다. 동작의 다양성을 끌어내기 어려웠던 것입니다.

UMI는 「왜 전이가 어려운가」를 4가지 구체적인 과제로 분해하고, 하나씩 대처했습니다. 이것이 논문의 골격입니다.

왜 전이가 어려웠는가: 4가지 과제

논문에서 제시하는, 전이를 어렵게 만들었던 4가지 과제입니다.

시각 정보 부족: 손목에 카메라를 장착하면 사람과 로봇의 관측 방식은 일치하지만, 대상에 너무 가까워 시야가 좁고 가려짐 (Occlusion)이 많다. 행동을 계획하기 위한 정보가 부족하다. -
동작의 부정확성: 많은 핸드헬드 디바이스는 단안 SfM (Structure from Motion, 여러 장의 이미지로부터 카메라의 움직임과 구조를 복원하는 기법)으로 궤적을 취하지만, 스케일의 모호함, 모션 블러 (Motion Blur), 텍스처 부족으로 인해 정밀한 궤적을 잡기 어렵다. -
레이턴시 (Latency) 불일치: 데이터 수집 시에는 관측과 동작이 지연 없이 기록된다. 하지만 실행 시에는 센서, 추론, 실행의 각 단계에서 지연이 발생한다. 이 차이를 모르는 정책 (Policy)은 학습할 때와 다른 (분포 외의, Out-of-distribution) 입력을 받게 되어, 타이밍이 어긋난 동작을 내보낸다. 빠르고 동적인 동작일수록 그 영향이 크다. -
정책의 표현력 부족: 기존에는 MLP + 회귀와 같은 단순한 표현으로 동작을 출력했으나, 인간의 데모는 '같은 상황에서도 여러 개의 정답이 존재할 수 있는' 다봉 분포 (Multimodal Distribution)를 가진다. 단순한 회귀로는 이를 모두 포착할 수 없으며, 데모가 늘어날수록 (사람이 늘어나 다봉성이 증가할수록) 오히려 학습이 어려워진다.

포인트는 어느 하나만 고치는 것으로는 부족하며, 4가지 모두를 다루어야 비로소 '다양하면서도 전이 가능한 데이터'가 된다는 점입니다. 이전의 핸드헬드 그리퍼 연구들이 간단한 잡기에 머물렀던 이유는, 이 모든 부분까지 손을 쓰지 못했기 때문이라고 이해했습니다.

UMI의 해법: 4가지 과제에 대한 대응

UMI는 해결책을 '데모 수집을 위한 물리적 인터페이스'와 '정책의 인터페이스 (관측과 행동의 표현)'라는 두 층위로 나누고 있습니다.

물리 인터페이스 측면 (과제 1·2에 대한 대응)

어안 렌즈 (Fisheye Lens): 155°의 광시야각으로 시각 정보의 부족 (과제 1)을 보완한다. -
그리퍼 측면의 미러 (Mirror): 좌우 미러의 반사를 통해 카메라 1대만으로도 의사 스테레오 (Pseudo-stereo, 깊이 정보)를 얻을 수 있다. 소박하지만 '카메라 1대로 깊이를 측정하기' 위한 고안이다. -
GoPro 내장 IMU: 어안 렌즈 및 미러와 결합하여, 빠른 움직임 시에도 추적을 견고하게(Robust) 만든다.

정책 인터페이스 측면 (과제 2·3·4에 대한 대응)

추론 시 레이턴시 매칭 (Inference Latency Matching): 센서 및 실행 지연을 실행 시점에 맞추어, 학습 시와 실행 시의 입력 분포 차이 (과제 3)를 해소한다. -
상대 궤적을 통한 행동 표현: 행동을 '세계 좌표계에서의 절대 위치'가 아닌 '상대적인 궤적'으로 나타낸다. 이를 통해 정밀한 절대 위치 복원이 불필요해지며 (과제 2의 영향 회피), 동시에 로봇 기종에 의존하지 않는 표현이 된다. 이것이 하드웨어 불가지론 (Hardware-agnostic)의 핵심이다. -
Diffusion Policy: 행동을 확산 모델 (Diffusion Model)로 생성하여, 인간 데이터의 다봉성 (과제 4)을 표현한다.

개인적으로 가장 효과적이라고 느낀 것은 '상대 궤적'입니다. 절대 위치를 포기함으로써 SfM의 정밀도 문제와 기종 의존성을 동시에 해결했습니다. 문제를 정면으로 돌파하려 하기보다, 그 문제가 영향을 미치지 않는 표현 방식으로 옮겨가는 방식이 매우 깔끔하다고 생각했습니다.

성과 (무엇이 가능해졌는가)

학습된 정책은 여러 로봇으로 교체하여 탑재할 수 있으며, 다양한 인간 데모로 학습할 경우 미지의 환경 및 물체에 대해 제로샷 (Zero-shot)으로 약 70%의 성공률을 보이는, 모방 학습에서는 보기 드문 일반화 성능을 보여주었습니다. 동적, 양손, 정밀, 장시간 동작 등 기존 텔레오퍼레이션 (Teleoperation)으로는 수집하기 어려웠던 동작들도, 태스크마다 학습 데이터를 교체하는 것만으로 구현할 수 있다는 것이 이 논문의 주장입니다.

구현자의 관점에서 읽는다면

UMI의 내용은 새로운 학습 이론이라기보다 센서, 좌표, 타이밍이라는 지극히 현실적인 공학적 축적입니다.

'카메라 1대 + 미러로 깊이를 측정한다', 'IMU로 견고하게 추적한다'는 관측을 어떻게 만들 것인가에 대한 설계입니다.
'상대 궤적'은 좌표계를 어떻게 선택할 것인가의 문제입니다.
'레이턴시 매칭'은 수집 계통과 실행 계통의 타이밍을 어떻게 맞출 것인가에 대한 이야기입니다.

학습 모델 자체를 건드리지 않더라도, 데이터 수집 계통, 좌표, 지연 설계만으로 전이성이 크게 달라질 수 있다는 점은 제어(Control)를 다뤄온 사람들에게 오히려 납득하기 쉬운 부분이라고 생각합니다.

요약

UMI = 로봇 없이 데이터를 수집하는 프레임워크. 발명은 '수집 방법'에 있다.
전이를 어렵게 만들었던 4가지 과제: 시야 부족 / 부정확성 / 레이턴시 차이 / 표현력 부족.
4가지 무기: 어안 렌즈 + 미러 + IMU (수집 측면), 레이턴시 매칭 + 상대 궤적 + Diffusion Policy (정책 측면).
가장 중요한 핵심: 상대 궤적. 절대 위치를 포기함으로써 정밀도 문제와 기종 의존성을 동시에 해결함.
성과: 미지 환경 및 물체에 대해 제로샷으로 약 70% 성공.