arXiv논문2026. 06. 17. 11:45

PearlVLA: 잠재 공간에서의 점진적 체화된 행동-계획 정제 (Progressive Embodied Action-Plan

요약

PearlVLA는 VLA 모델의 효율적인 행동 생성과 명시적 추론 사이의 트레이드오프를 해결하기 위해 제안된 프레임워크입니다. 숙고 과정을 VLM의 잠재 공간으로 이동시켜 지연 시간을 줄이면서도 정교한 계획 능력을 유지합니다.

핵심 포인트

숙고 과정을 잠재 공간으로 이동시켜 계산 비용과 지연 시간 최적화
잠재 월드 모델을 활용한 미래 관측 잠재 값 탐색 및 계획 정제
RefineNet을 통한 거친 초안에서 세밀한 행동 계획으로의 점진적 업데이트
Causal Refinement-Grouped Process-Reward RL을 통한 최적화
LIBERO 벤치마크에서 SOTA 성능 달성

현재의 시각-언어-행동 (Vision-Language-Action, VLA) 모델들은 효율적인 행동 생성과 명시적인 숙고 (deliberation) 사이에서 트레이드오프 (trade-off) 문제에 직면해 있습니다. 시각-언어 백본 (backbone) 표현으로부터 행동을 직접 디코딩 (decoding)하는 것은 낮은 지연 시간 (low-latency)의 제어를 가능하게 하지만, 텍스트 체인 (textual chains), 픽셀 수준의 하위 목표 (subgoals), 또는 행동 탐색 (action search)을 통한 명시적인 추론은 계획 능력을 향상시킬 수 있으나 상당한 지연 시간과 계산 비용을 초래합니다. 우리는 숙고 과정을 시각-언어 모델 (Vision-Language Model, VLM)의 잠재 공간 (latent space)으로 이동시키는 VLA 프레임워크인 PearlVLA를 제안합니다. PearlVLA는 VLM 메타-쿼리 (meta-query) 표현을 고정된 시각적 접지 (visual grounding) 브랜치와 반복적인 잠재 계획 (latent plan) 브랜치로 분리합니다. 각 정제 (refinement) 라운드마다, 계획에 조건화된 월드 쿼리 (world query)가 경량화된 동결된 잠재 월드 모델 (frozen latent world model)을 조사하여 행동이 배제된 미래 관측 잠재 값 (action-free future observation latent)을 탐색하며, 이는 계획 정제를 가이드하기 위해 다시 피드백됩니다. 이후 미래 가이드형 RefineNet은 스케줄링된 잔차 업데이트 (residual updates)를 적용하여 거친 의미론적 초안 (coarse semantic draft)을 세밀한 잠재 행동 계획 (fine-grained latent action plan)으로 점진적으로 정제합니다. K 라운드 이후 정제된 계획은 낮은 지연 시간의 실행을 위해 행동 청크 (action chunk)로 병렬 디코딩됩니다. 우리는 또한 잠재 계획 편집에 의해 유도된 더 긴 지평의 상상된 미래 (longer-horizon imagined futures)로부터 얻은 보상을 사용하여 잠재 정제 과정을 최적화하는 인과적 정제-그룹화 프로세스-보상 강화학습 (Causal Refinement-Grouped Process-Reward RL)을 도입합니다. LIBERO 벤치마크에 대한 실증적 평가 결과, PearlVLA가 기존 방법들 사이에서 최첨단 (state-of-the-art) 성능을 달성함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

PearlVLA: 잠재 공간에서의 점진적 체화된 행동-계획 정제 (Progressive Embodied Action-Plan

요약

핵심 포인트

댓글