arXiv논문2026. 05. 29. 11:27

DynaFLIP: 삼중 모달리티 역학 가이드 표현을 통한 로봇 인지 재고

요약

DynaFLIP은 로봇 조작을 위해 동작 이해를 인지 단계로 통합한 멀티모달 사전 학습 프레임워크입니다. 이미지, 언어, 3D 흐름의 삼중항을 공유 공간에서 정렬하여 역학 인식 표현을 생성하며, 다양한 다운스트림 정책에서 성능을 크게 향상시킵니다.

핵심 포인트

이미지-언어-3D 흐름 삼중항을 활용한 역학 인식 학습
심플렉스 부피 최소화를 통한 모달리티 간 강력한 정렬
제어 관련 영역에 집중하는 시각적 백본 형성
OOD 시나리오에서 최대 22.5% 성능 향상 달성

로봇 조작 (Robot manipulation)은 장면의 행동 관련 측면을 보존하는 인지 (Perception)에 결정적으로 의존합니다. 그러나 대부분의 로봇 학습 파이프라인은 정적 인식 (Static recognition) 또는 시각-언어 정렬 (Vision-language alignment)을 위해 사전 학습된 시각 인코더 (Visual encoders)를 기반으로 구축되어 있으며, 동작 이해 (Motion understanding)는 다운스트림 정책 (Downstream policies)의 몫으로 남겨둡니다. 우리는 동작 이해를 인지 단계의 상류 (Upstream)로 끌어올리는 역학 인식 멀티모달 사전 학습 프레임워크인 DynaFLIP을 소개합니다. 우리는 이질적인 인간 및 로봇 비디오로부터 이미지-언어-3D 흐름 (Image-language-3D flow) 삼중항 (Triplets)을 구축하고, 이러한 삼중항을 학습 시 감독 (Supervision) 신호로 사용하여 이미지 전용 인코더를 형성합니다. 우리의 핵심 아이디어는 세 가지 모달리티 (Modalities)가 공유된 초구형 공간 (Hyperspherical space) 내에서 작은 심플렉스 부피 (Simplex volume)를 차지하도록 유도하는 것이며, 더 작은 심플렉스 부피는 더 강력한 정렬을 나타냅니다. 단순한 부피 최소화의 기하학적 모호성과 사소한 붕괴 (Trivial collapse)를 피하기 위해, 우리는 심플렉스 부피 최소화와 코사인 정규화 항 (Cosine regularizer) 및 대조 학습 목적 함수 (Contrastive objective)를 결합합니다. 우리의 분석은 DynaFLIP이 조작에 중요한 제어 관련 영역 (Control-relevant regions)에 집중한다는 것을 보여줍니다. 결과적으로 생성된 역학 인식 표현 (Dynamics-aware representations)은 재사용 가능한 시각적 백본 (Visual backbones) 역할을 하며, VLA를 포함한 다양한 다운스트림 정책 전반에서 일관되게 베이스라인 (Baselines)을 능가합니다. 우리는 다양한 시뮬레이션 및 실제 환경 설정에서 이를 검증하였으며, 분포 외 (Out-of-distribution) 시나리오에서 최대 +22.5%의 성능 향상을 달성했습니다. 우리의 결과는 시각적 표현이 단순히 무엇이 존재하는지가 아니라, 행동에 따라 세상이 어떻게 변하는지를 인코딩하도록 학습될 때 로봇의 일반화 (Generalization)가 향상됨을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DynaFLIP: 삼중 모달리티 역학 가이드 표현을 통한 로봇 인지 재고

요약

핵심 포인트

댓글