arXiv논문2026. 06. 16. 13:53

로봇 정책 학습을 위한 기하학적 행동 모델 (Geometric Action Model)

요약

기하학적 파운데이션 모델(GFM)을 활용하여 로봇의 조작 성능을 높이는 기하학적 행동 모델(GAM)을 제안합니다. GAM은 GFM의 중간 레이어를 분할하여 미래의 기하학적 정보와 행동을 동시에 예측함으로써 3D 물리 세계에 최적화된 조작을 수행합니다.

핵심 포인트

GFM을 공유 기질로 재사용하여 3D 기하학적 사전 지식 보존
언어, 고유 수용 감각, 행동 이력을 조건으로 미래 잠재 토큰 예측
최소한의 구조적 수정으로 시간적 세계 모델링 기능 부여
기존 베이스라인 대비 정확도, 견고성, 속도, 효율성 향상

범용 로봇 정책 (Generalist robot policies)은 3D 물리 세계에서 물체, 카메라, 그리고 로봇의 행동이 어떻게 상호작용하는지에 대해 추론하는 동시에 사용자의 지시를 따라야 합니다. 최근의 시각-언어-행동 모델 (Vision-Language-Action models, VLAs) 및 비디오 세계-행동 모델 (Video World-Action models, WAMs)은 대규모 파운데이션 모델 (Foundation models)로부터 강력한 의미론적 또는 시간적 사전 지식 (Priors)을 상속받지만, 여전히 주로 2D 이미지 프레임이나 2D에서 유도된 잠재 공간 (Latent spaces)에서 작동하며, 접촉이 빈번한 조작 (Contact-rich manipulation)에 필요한 3D 기하학 (3D geometry)을 암시적인 상태로 남겨둡니다.

우리는 사전 학습된 기하학적 파운데이션 모델 (Geometric Foundation Model, GFM)을 인지, 시간적 예측, 그리고 행동 디코딩 (Action decoding)을 위한 공유 기질 (Shared substrate)로 직접 재사용하는 언어 조건부 조작 정책인 기하학적 행동 모델 (Geometric Action Model, GAM)을 제안합니다. GAM은 중간 레이어에서 GFM을 분할합니다. 얕은 레이어들은 관측 인코더 (Observation encoder) 역할을 수행하며, 분할 레이어에 삽입된 인과적 미래 예측기 (Causal future predictor)는 언어, 고유 수용 감각 (Proprioception), 그리고 행동 이력 (Action history)에 조건화된 미래 잠재 토큰 (Future latent tokens)을 예측합니다. 예측된 미래 토큰은 이후 특징 전파 (Feature propagation) 및 디코딩을 위해 나머지 GFM 블록을 통해 라우팅되며, 이를 통해 단일 백본 (Backbone)이 미래의 기하학적 정보와 행동을 모두 생성할 수 있게 합니다. 이러한 설계는 풍부한 기하학적 사전 지식 (Geometric priors)을 보존하면서도, 최소한의 구조적 수정만으로 GFM에 언어 조건부 시간적 세계 모델링 (Temporal world modeling) 기능을 부여합니다. 광범위한 시뮬레이션 및 실제 로봇 조작 벤치마크 전반에 걸쳐, GAM은 현재의 파운데이션 모델 규모의 베이스라인 모델들보다 더 정확하고, 더 견고하며, 더 빠르고, 더 가볍습니다.

AI 자동 생성 콘텐츠

원문 바로가기

로봇 정책 학습을 위한 기하학적 행동 모델 (Geometric Action Model)

요약

핵심 포인트

댓글