arXiv논문2026. 06. 02. 11:48

우리가 말하는 거짓말: 접공간(Tangent Space)에서의 스코어 매칭(Score Matching)을 통한 시각-언어-행동(VLA) 정책의

요약

기존 VLA 정책이 SE(3) 포즈를 유클리드 공간으로 근사하며 발생하는 기하학적 오류를 해결하기 위한 Lie Diffuser Actor(LDA)를 제안합니다. 접공간에서의 스코어 매칭을 통해 매니폴드 드리프트를 방지하고 좌표계 등변성과 측지선 최적성을 보장합니다.

핵심 포인트

유클리드 근사로 인한 매니폴드 드리프트 및 등변성 파괴 문제 지적
Lie 그룹 기반의 좌불변 SDE를 활용한 LDA 프레임워크 제안
접공간 스코어 예측 및 지수 사상을 통한 샘플 역투영 방식 도입
CALVIN 벤치마크에서 작업 성능 7.3% 개선 및 실제 로봇 검증 완료

확산 기반(Diffusion-based) 시각-언어-행동(Vision-Language-Action, VLA) 정책은 로봇 조작(robotic manipulation) 분야에서 놀라운 성공을 거두고 있지만, 우리가 **유클리드 오류(Euclidean Fallacy)**라고 명명한 근본적인 기하학적 오류를 범하고 있습니다. 이는 SE(3) 포즈(pose)를 평평한 $\mathbb{R}^{12}$ 벡터로 표현하는 것입니다. 이러한 근사는 (1) SO(3) 제약 조건을 위반하는 매니폴드 드리프트(manifold drift), (2) 좌표 변환 하에서의 등변성(equivariance) 파괴, (3) 과도한 운동학적 비용을 초래하는 비측지선(non-geodesic) 궤적을 유발합니다. 우리는 SE(3) 상에서 본질적으로 작동하는 확산 프레임워크인 **Lie Diffuser Actor (LDA)**를 소개합니다. 우리의 방법은 좌불변(left-invariant) SDE를 통해 노이즈를 주입하고, 접공간(tangent space)에서 스코어(score)를 예측하며, 지수 사상(exponential map)을 통해 샘플을 역투영(retract)합니다. 이러한 정식화는 구조적으로 매니폴드 드리프트를 제거하는 동시에 좌표계 등변성(coordinate-frame equivariance)과 측지선 최적성(geodesic optimality)을 보장합니다. CALVIN ABC$\rightarrow$D 벤치마크에서 LDA는 평균 작업 길이(average task length)를 $3.27$에서 $3.51$로 개선했습니다 ($+7.3%$). 우리는 실제 로봇에서도 우리의 방법을 추가로 검증하였으며, 결과는 우리의 방법론이 대다수의 작업에서 베이스라인(baseline)보다 우수한 성능을 보임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

우리가 말하는 거짓말: 접공간(Tangent Space)에서의 스코어 매칭(Score Matching)을 통한 시각-언어-행동(VLA) 정책의

요약

핵심 포인트

댓글