IntentVLA: 모호한 로봇 조작을 위한 단기 지향 의도 모델링 (Short-Horizon Intent Modeling for

로봇 모방 데이터 (Robot imitation data)는 종종 다중 모드 (multimodal) 특성을 가집니다. 인간 시연자가 서로 다른 단기 지향 의도 (short-horizon intents), 작업 단계 (task phases), 또는 최근 문맥 (recent context)에 따라 행동하기 때문에, 유사한 시각-언어 관측 (visual-language observations) 이후에도 서로 다른 액션 청크 (action chunks)가 이어질 수 있기 때문입니다. 기존의 프레임 조건부 VLA 정책 (frame-conditioned VLA policies)은 현재의 관측 (observation)과 지시 (instruction)만으로 각 청크를 추론하며, 따라서 부분 관측성 (partial observability) 상황에서는 인접한 재계획 (replanning) 단계마다 서로 다른 의도를 재샘플링할 수 있어, 청크 간의 충돌 (inter-chunk conflict)과 불안정한 실행을 초래할 수 있습니다. 우리는 최근의 시각적 관측 (visual observations)을 압축된 단기 지향 의도 표현 (short-horizon intent representation)으로 인코딩하고 이를 청크 생성의 조건으로 사용하는 이력 조건부 VLA 프레임워크 (history-conditioned VLA framework)인 IntentVLA를 소개합니다. 나아가 우리는 단기 관측 모호성 (short-horizon observation aliasing)을 격리할 수 있는 매칭된 학습 데이터와 평가 환경을 갖춘 RoboTwin2 기반의 12개 작업 모호성 인식 벤치마크 (ambiguity-aware benchmark)인 AliasBench를 도입합니다. AliasBench, SimplerEnv, LIBERO, 그리고 RoboCasa에 걸쳐, IntentVLA는 롤아웃 안정성 (rollout stability)을 향상시키며 강력한 VLA 베이스라인 (baselines) 모델들을 능가하는 성능을 보여줍니다.

Insights

IntentVLA: 모호한 로봇 조작을 위한 단기 지향 의도 모델링 (Short-Horizon Intent Modeling for

요약

핵심 포인트

댓글

Thermo Fisher, 고객 활동 강화에 따라 2026년 매출 474억~481억 달러 및 조정 EPS 24.93~25.33달러 전망

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

Thermo Fisher, 고객 활동 강화에 따라 2026년 매출 474억~481억 달러 및 조정 EPS 24.93~25.33달러 전망

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.