arXiv논문2026. 05. 04. 19:03

텍스트와 이미지를 활용한 사고: 장기 지평 로봇 조작을 위한 교차 시각-언어 추론 흔적

요약

본 논문은 장기 지평 로봇 조작을 위해 명시적인 중간 표현인 '교차 시각-언어 추론 흔적(Interleaved Vision-Language Reasoning Trace)'을 활용하는 IVLR 프레임워크를 제안합니다. 이 프레임워크는 초기 관측과 지시사항에서 전역적인 의미-기하학적 단서를 생성하고, 이를 행동 디코더에 조건부로 제공하여 로봇의 계획 일관성을 높입니다. 시뮬레이션 벤치마크(LIBERO 등)에서 높은 성공률을 달성했으며, 특히 두 모달리티가 결합된 전역적인 흔적이 가장 효과적임을 입증했습니다.

핵심 포인트

장기 지평 로봇 조작에는 논리적 일관성과 기하학적 기반이 모두 필요한 명시적인 계획 표현이 필수적이다.
IVLR 프레임워크는 원시 다중 모달리티 트랜스포머를 사용하여 전역적인 의미-기하학적 추론 흔적을 생성하고 이를 행동에 활용한다.
제안된 '교차 흔적'은 텍스트나 시각 정보만 사용하는 경우보다 훨씬 높은 로봇 조작 성공률을 달성했다.
시뮬레이션 환경에서 가상 감독(pseudo-supervision)을 구축하여 장기 지평 및 분포 이동 문제를 해결하고 성능을 검증했다.

장기 지평 (long-horizon) 로봇 조작은 논리적 일관성과 기하학적 기반이 모두 갖춰진 계획이 필요합니다. 기존의 시각-언어-행동 (Vision-Language-Action) 정책은 일반적으로 계획을 잠재 상태에 숨기거나, 텍스트만 연쇄적 사고 (chain-of-thought) 로 인과 순서를 코딩하지만 공간 제약 조건을 놓치거나, 시각 예측으로 기하학적 단서를 제공하지만 종종 지역적이고 의미상 제약이 부족한 경우가 많습니다. 우리는 race{} 를 기반으로 한 명시적인 중간 표현을 중심으로 구축한 Interleaved Vision--Language Reasoning (IVLR) 정책 프레임워크를 소개합니다. 테스트 시간에는 단일 원시 다중 모달리티 트랜스포머가 초기 관측과 지시사항에서 이 전역적 의미-기하학적 흔적을 생성하고, 이를 캐싱하며, 폐쇄 루프 행동 디코더를 흔적, 원시 지시사항 및 현재 관측에 조건부 (conditioning) 합니다. 표준 로봇 데이터셋에는 이러한 흔적이 부족하므로, 시뮬레이션 벤치마크에서 장기 지평 조작과 시각 분포 이동 (visual distribution shift) 을 위해 시연을 시간적으로 분할하고 각 단계를 시각-언어 모델로 캡션으로 생성하여 가상의 감독 (pseudo-supervision) 을 구축했습니다. LIBERO 의 경우 95.5% 평균 성공률을 달성했으며, 이는 LIBERO-Long 에서 92.4%, SimplerEnv-WidowX 에서 전체 성공률 59.4%를 포함합니다. Ablation 실험은 두 모달리티가 모두 필요함을 보여줍니다: 흔적이 없으면 LIBERO-Long 성공률은 37.7%로 감소하며, 텍스트만과 시각만 흔적은 각각 62.0%와 68.4%에 도달하지만, 전체 교차 흔적은 92.4%를 달성했습니다. 실행 변동 (execution perturbations) 과 가려진 흔적 콘텐츠 (masked trace content) 를 활용한 스트레스 테스트는 중간적인 열화 (degradation) 를 보여주며, 이는 흔적이 국소적 부패와 중간적인 실행 편차에 견딜 수 있음을 시사하지만, 낡거나 잘못된 전역 계획 하에서는 한계가 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

텍스트와 이미지를 활용한 사고: 장기 지평 로봇 조작을 위한 교차 시각-언어 추론 흔적

요약

핵심 포인트

댓글