Pose6DAug: 로봇 데이터 증강을 위한 물리적으로 타당한 다중 뷰 객체 교체 기술
요약
Pose6DAug는 로봇의 VLA 정책이 새로운 객체에 대응하지 못하는 문제를 해결하기 위해 제안된 실패 기반 데이터 증강 프레임워크입니다. 3D 메쉬와 6D 포즈 궤적을 활용해 다중 뷰에서 물리적으로 일관된 객체 교체를 수행함으로써, 추가 데이터 수집 없이도 모델의 일반화 성능을 높입니다.
핵심 포인트
- 성공적인 에피소드를 활용한 실패 기반 데이터 증강 프레임워크 제안
- 3D 메쉬와 6D 포즈를 이용해 다중 뷰 간 기하학적 일관성 확보
- VLA 미세 조정을 통해 새로운 객체에 대한 성공률 16.5% 향상
- 비용 효율적인 데이터 증강을 통한 로봇 조작의 일반화 문제 해결
시각-언어-행동 (Vision-language-action, VLA) 정책은 범용 조작 (general-purpose manipulation) 분야에서 강력한 잠재력을 보여주었으나, 외형이나 기하학적 구조가 학습 분포에서 벗어난 새로운 분포 외 (out-of-distribution) 객체에 대해서는 종종 실패합니다. 표준적인 해결책은 모든 실패 사례에 대해 다중 뷰 원격 조작 (multi-view teleoperation) 데이터를 수집하는 것이지만, 이는 비용과 시간 측면에서 확장성이 떨어집니다. 우리는 새로운 데이터 수집 없이, 정책 자체의 성공적인 에피소드를 실패 모드에 대한 타겟 데몬스트레이션 (targeted demonstrations)으로 전환하는 실패 기반 데이터 증강 (failure-driven data augmentation) 프레임워크인 Pose6DAug를 소개합니다. 우리의 핵심 통찰은 각 성공적인 에피소드가 이미 보정된 다중 뷰 관측값 (multi-view observations)과 함께 물리적으로 유효한 행동 궤적 (action trajectory)을 인코딩하고 있다는 점입니다. 이 궤적을 보존하면서 조작된 객체만을 교체함으로써, 우리는 새롭고 물리적으로 근거가 있는 데몬스트레이션을 얻을 수 있습니다. 그러나 단순한 2D 비디오 편집은 특히 심한 폐쇄 (occlusion) 및 1인칭 시점 (egocentric viewpoints) 상황에서 다중 뷰 일관성 (multi-view consistency)과 물리적 타당성 (physical plausibility)을 깨뜨립니다. 대신 우리의 방법은 3D에서 직접 작동하며, 시간적으로 일관된 6D 포즈 (6D pose) 궤적에 의해 구동되는 명시적인 메쉬 (mesh)로 대상 객체를 고정하여, 모든 카메라 뷰에 대해 기하학적으로 일관된 렌더링을 보장합니다. 우리의 방법으로 증강된 데이터로 VLA를 미세 조정 (Fine-tuning)하면, 분포 내 (in-distribution) 성능을 유지하면서도 새로운 객체에 대해 최신 기술 (state-of-the-art) 베이스라인 대비 성공률을 16.5% 향상시킵니다. 이러한 결과는 다중 뷰 및 물리적으로 일관된 증강이 확장 가능한 VLA 일반화 (generalization)를 위한 실질적인 경로임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기