본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 16:19

IntentVLA: 모호한 로봇 조작을 위한 단기 지향 의도 모델링 (Short-Horizon Intent Modeling for

요약

IntentVLA은 로봇 모방 데이터의 부분 관측성 문제를 해결하기 위해 개발된 이력 조건부 VLA 프레임워크입니다. 이는 최근 시각적 관측을 압축된 단기 지향 의도 표현으로 인코딩하여 액션 청크 생성에 활용합니다. 또한, IntentVLA는 단기 관측 모호성을 평가하는 새로운 벤치마크인 AliasBench를 도입하여 그 성능과 안정성을 입증했습니다.

핵심 포인트

  • IntentVLA는 로봇의 부분 관측성 문제를 해결하기 위해 이력 조건부 VLA 프레임워크를 사용합니다.
  • 기존 정책들은 현재 관측과 지시에만 의존하여, 재계획 단계에서 불안정성과 충돌을 겪을 수 있습니다.
  • IntentVLA는 시각적 관측을 단기 지향 의도 표현으로 인코딩하여 액션 청크 생성의 조건으로 사용합니다.
  • AliasBench라는 새로운 모호성 인식 벤치마크를 도입하여 IntentVLA의 성능과 안정성을 검증했습니다.

로봇 모방 데이터 (Robot imitation data)는 종종 다중 모드 (multimodal) 특성을 가집니다. 인간 시연자가 서로 다른 단기 지향 의도 (short-horizon intents), 작업 단계 (task phases), 또는 최근 문맥 (recent context)에 따라 행동하기 때문에, 유사한 시각-언어 관측 (visual-language observations) 이후에도 서로 다른 액션 청크 (action chunks)가 이어질 수 있기 때문입니다. 기존의 프레임 조건부 VLA 정책 (frame-conditioned VLA policies)은 현재의 관측 (observation)과 지시 (instruction)만으로 각 청크를 추론하며, 따라서 부분 관측성 (partial observability) 상황에서는 인접한 재계획 (replanning) 단계마다 서로 다른 의도를 재샘플링할 수 있어, 청크 간의 충돌 (inter-chunk conflict)과 불안정한 실행을 초래할 수 있습니다. 우리는 최근의 시각적 관측 (visual observations)을 압축된 단기 지향 의도 표현 (short-horizon intent representation)으로 인코딩하고 이를 청크 생성의 조건으로 사용하는 이력 조건부 VLA 프레임워크 (history-conditioned VLA framework)인 IntentVLA를 소개합니다. 나아가 우리는 단기 관측 모호성 (short-horizon observation aliasing)을 격리할 수 있는 매칭된 학습 데이터와 평가 환경을 갖춘 RoboTwin2 기반의 12개 작업 모호성 인식 벤치마크 (ambiguity-aware benchmark)인 AliasBench를 도입합니다. AliasBench, SimplerEnv, LIBERO, 그리고 RoboCasa에 걸쳐, IntentVLA는 롤아웃 안정성 (rollout stability)을 향상시키며 강력한 VLA 베이스라인 (baselines) 모델들을 능가하는 성능을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0