로봇 조작을 위한 효율적인 시각적 표현을 위한 구조적 잠재 포인트 학습
요약
본 연구는 로봇 조작을 위한 3D 인식 사전 학습 과정에서 암시적 표현의 높은 표현력과 명시적 표현의 구조적 장점을 결합한 '구조적 잠재 포인트(Structural latent points)' 프레임워크를 제안합니다. 포인트 단위 변분 오토인코더를 통해 잠재 공간을 정규화함으로써, 정밀한 기하학 대신 풍부한 형태와 의미론적 정보를 담은 압축된 잠재 표현을 생성합니다. 이를 경량화된 3DGS 기반 렌더링 파이프라인과 결합하여 로봇 작업의 성공률과 강건성을 크게 향상시켰습니다.
핵심 포인트
- 암시적 표현의 표현력과 명시적 표현의 구조적 단서를 결합한 하이브리드 구조 제안
- 포인트 단위 변분 오토인코더를 활용하여 포인트 특징과 좌표를 가우시안 사전 확률로 공동 정규화
- 경량화된 3DGS(3D Gaussian Splatting) 기반 렌더링 파이프라인을 통한 효율성 확보
- RLBench, ManiSkill2 및 실제 로봇 플랫폼 실험을 통해 작업 성공률과 샘플 효율성 입증
체화된 인지 (Embodied perception) 및 조작 (Manipulation)을 위한 현재의 3D 인식 사전 학습 (Pretraining) 방법들은 주로 미분 가능한 렌더링 (Differentiable rendering) 프레임워크를 기반으로 구축되어 있으며, 완전히 암시적인 신경장 (Implicit neural fields) 또는 완전히 명시적인 기하학적 원시체 (Explicit geometric primitives)를 생성합니다. 암시적 표현 (Implicit representations)은 표현력은 뛰어나지만 명시적인 구조적 단서가 부족한 반면, 명시적 표현 (Explicit representations)은 기하학적 구조를 보존하지만 해상도 제한과 약한 일반화 성능이라는 문제를 겪습니다. 이러한 한계를 해결하기 위해, 우리는 하이브리드 표현인 구조적 잠재 포인트 (Structural latent points)를 학습하는 새로운 사전 학습 프레임워크를 제안합니다. 구체적으로, 우리는 포인트 클라우드 오토인코더 (Point-cloud autoencoder)의 잠재 공간 (Latent space)에 포인트 단위 변분 오토인코더 (Point-wise variational autoencoder)를 삽입하여, 포인트 단위 특징 (Point-wise features)과 좌표를 가우시안 사전 확률 (Gaussian prior)을 향해 공동으로 정규화 (Regularizing)합니다. 그 결과 생성된 압축된 잠재 표현 (Compact latent)은 거친 구조적 경향성을 보존하며, 이는 정밀한 기하학을 인코딩하지는 않지만 더 풍부한 대략적 형태와 의미론적 정보 (Semantic information)를 포착하여, 암시적 표현의 표현력과 명시적 표현의 구조적 사전 확률을 효과적으로 결합합니다. 또한, 이전 연구들의 공통된 설계 선택을 참고하여, 우리는 의도적으로 경량화된 효율적인 3DGS (3D Gaussian Splatting) 기반 렌더링 파이프라인을 개발하였으며, 이를 통해 효율성을 높이는 동시에 프런트엔드 잠재 모듈 (Front-end latent module)에 더 큰 표현 용량을 남겨두었습니다. RLBench, ManiSkill2 및 실제 로봇 플랫폼에서의 광범위한 평가를 통해, 강력한 베이스라인 (Baselines) 대비 작업 성공률, 샘플 효율성 (Sample efficiency), 그리고 시점 및 장면 변화에 대한 강건성 (Robustness) 측면에서 일관된 성능 향상을 입증했습니다. 절제 연구 (Ablation studies)를 통해 우리 프레임워크의 각 구성 요소가 전체 성능에 결정적임을 추가로 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기