arXiv논문2026. 06. 24. 10:13

G$^3$VLA: Vision-Language-Action 모델을 위한 기하학적 귀납 편향 (Geometric inductive bias)

요약

G$^3$VLA는 VLA 모델의 시각적 토큰에 카메라의 기하학적 구조를 주입하여 로봇 조작 성능을 높이는 연구입니다. 기존 액션 공간을 변경하지 않고도 내적/외적 파라미터를 활용한 모듈을 통해 다중 카메라 환경에서의 공간 인지 능력을 개선합니다.

핵심 포인트

카메라 인식 기하학 모듈을 통한 시각적 토큰의 구조적 개선
내적 조건부 레이 임베딩 및 투영 위치 인코딩(PRoPE) 도입
별도의 깊이 센서나 수동 주석 없이도 기하학적 감독 가능
LIBERO, RoboCasa24 등 다양한 벤치마크에서 성능 향상 입증
기하학 인지 토큰이 액션 생성 경로에 직접 접근할 때 효과 극대화

Vision-language-action (VLA) 모델은 사전 학습된 vision-language 백본으로부터 의미론적 지식(semantic knowledge)을 활용함으로써 범용 로봇 조작(robot manipulation) 분야에서 빠른 발전을 이루었습니다. 그러나 이들의 시각적 토큰(visual tokens)은 로봇 카메라의 보정된 기하학적 구조(calibrated geometry)가 아닌 2D 이미지 좌표에 기반하고 있습니다. 이러한 불일치는 특히 다중 카메라 설정에서 두드러지는데, 이 환경에서는 시점(views)들이 알려진 내적 파라미터(intrinsics)와 외적 파라미터(extrinsics)에 의해 결합되어 있음에도 불구하고 독립적인 이미지로 처리되기 때문입니다. 우리는 G$^3$VLA를 제안합니다. 이는 기존 VLA의 액션 공간(action space)이나 모방 목적(imitation objective)을 변경하지 않으면서, 사전 학습된 VLA의 시각적 토큰 스트림에 보정된 구조를 주입하는 카메라 인식 기하학 모듈(camera-aware geometric module)입니다. 이 모듈은 내적 조건부 레이 임베딩(intrinsic-conditioned ray embeddings), 투영 위치 인코딩(projective positional encoding, PRoPE), 그리고 양방향 교차 시점 융합(bidirectional cross-view fusion)을 결합합니다. 기하학적 감독(Geometric supervision)은 사용 가능한 경우 정답 포인트 맵(ground-truth point maps)으로부터 제공되거나, 신뢰도 게이트가 적용된 $\pi^3$X 교사 모델(teacher predictions)로부터 제공되며, 깊이 센서(depth sensors)나 수동 주석(manual annotations)을 필요로 하지 않습니다. $\pi_0$에 구현된 G$^3$VLA는 LIBERO 스위트, RoboCasa24, RoboTwin2.0, 그리고 실제 로봇 환경 전반에서 일관된 성능 향상을 보여주었으며, 공간 및 객체 민감도가 높은 작업에서 가장 큰 개선을 보였습니다. 우리는 $\pi_{0.5}$ 및 GR00T 1.5에서도 추가 검증을 수행하였으며, 결과에 따르면 기하학 인지 토큰(geometry-aware tokens)이 액션 생성 경로(action generation pathway)에 직접 접근할 수 있을 때 기하학적 전이(geometric transfer)가 가장 효과적임을 시사합니다. 프로젝트 페이지는 https://sites.google.com/view/g3vla 입니다.

AI 자동 생성 콘텐츠

원문 바로가기

G$^3$VLA: Vision-Language-Action 모델을 위한 기하학적 귀납 편향 (Geometric inductive bias)

요약

핵심 포인트

댓글