arXiv논문2026. 05. 13. 11:19

ALAM: Vision-Language-Action 모델을 위한 대수적으로 일관된 잠재 전이 (Algebraically Consistent

요약

ALAM은 Vision-Language-Action (VLA) 모델의 성능 한계를 극복하기 위해 개발된 새로운 프레임워크입니다. 이 모델은 행동 레이블이 부족한 상황에서 비디오 데이터가 제공하는 물리적 세계 변화에 대한 사전 지식을 활용합니다. ALAM은 대수적으로 일관된 잠재 전이(algebraically consistent latent transfer)와 공동 흐름 매칭을 결합하여, 기존 VLA 정책 대비 MetaWorld MT50 및 LIBERO 등 다양한 환경에서 현저하게 높은 성공률 향상을 입증했습니다.

핵심 포인트

VLA 모델은 행동 레이블 데이터 부족이라는 근본적인 제약에 직면해 있습니다.
ALAM은 비행동 비디오에서 물리적 세계의 변화(사전 지식)를 추출하여 VLA 정책을 개선합니다.
대수적으로 구조화된 잠재 전이와 공동 흐름 매칭의 결합이 성능 향상의 핵심 동력입니다.
실제 로봇 작업 환경(MetaWorld MT50, LIBERO 등)에서 기존 대비 높은 성공률 증가를 보였습니다.

Vision-language-action (VLA) 모델은 행동 레이블이 지정된 로봇 데이터의 부족으로 인해 제약을 받지만, 행동이 없는 비디오는 물리적 세계가 어떻게 변화하는지에 대한 풍부한 증거를 제공합니다. 잠재 행동 모델(Latent action models)은 이러한 사전 지식(priors)을 비디오에서 추출할 수 있는 유망한 방법을 제공하지만, 재구성 훈련된 잠재 코드(reconstruction-trained latent codes)가 정책 생성에 반드시 적합한 것은 아닙니다: 그들은 m

VLA 정책으로 전이했을 때, ALAM은 MetaWorld MT50에서 평균 성공률을 47.9%에서 85.0%로, LIBERO에서는 94.1%에서 98.1%로 끌어올렸으며, 실제 환경 조작 작업에서도 일관된 성능 향상을 보였습니다. 추가적인 제거 실험(Ablations)은 대수적으로 구조화된 잠재 전이와 공동 흐름 매칭(joint flow matching) 간의 시너지 효과에서 가장 큰 개선이 발생한다는 것을 확인시켜 주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

ALAM: Vision-Language-Action 모델을 위한 대수적으로 일관된 잠재 전이 (Algebraically Consistent

요약

핵심 포인트

댓글