텍스트와 이미지를 활용한 사고: 장기 지평 로봇 조작을 위한 교차 시각-언어 추론 흔적
요약
본 논문은 장기 지평 로봇 조작을 위해 명시적인 중간 표현인 '교차 시각-언어 추론 흔적(Interleaved Vision-Language Reasoning Trace)'을 활용하는 IVLR 프레임워크를 제안합니다. 이 프레임워크는 초기 관측과 지시사항에서 전역적인 의미-기하학적 단서를 생성하고, 이를 행동 디코더에 조건부로 제공하여 로봇의 계획 일관성을 높입니다. 시뮬레이션 벤치마크(LIBERO 등)에서 높은 성공률을 달성했으며, 특히 두 모달리티가 결합된 전역적인 흔적이 가장 효과적임을 입증했습니다.
핵심 포인트
- 장기 지평 로봇 조작에는 논리적 일관성과 기하학적 기반이 모두 필요한 명시적인 계획 표현이 필수적이다.
- IVLR 프레임워크는 원시 다중 모달리티 트랜스포머를 사용하여 전역적인 의미-기하학적 추론 흔적을 생성하고 이를 행동에 활용한다.
- 제안된 '교차 흔적'은 텍스트나 시각 정보만 사용하는 경우보다 훨씬 높은 로봇 조작 성공률을 달성했다.
- 시뮬레이션 환경에서 가상 감독(pseudo-supervision)을 구축하여 장기 지평 및 분포 이동 문제를 해결하고 성능을 검증했다.
장기 지평 (long-horizon) 로봇 조작은 논리적 일관성과 기하학적 기반이 모두 갖춰진 계획이 필요합니다. 기존의 시각-언어-행동 (Vision-Language-Action) 정책은 일반적으로 계획을 잠재 상태에 숨기거나, 텍스트만 연쇄적 사고 (chain-of-thought) 로 인과 순서를 코딩하지만 공간 제약 조건을 놓치거나, 시각 예측으로 기하학적 단서를 제공하지만 종종 지역적이고 의미상 제약이 부족한 경우가 많습니다. 우리는 race{} 를 기반으로 한 명시적인 중간 표현을 중심으로 구축한 Interleaved Vision--Language Reasoning (IVLR) 정책 프레임워크를 소개합니다. 테스트 시간에는 단일 원시 다중 모달리티 트랜스포머가 초기 관측과 지시사항에서 이 전역적 의미-기하학적 흔적을 생성하고, 이를 캐싱하며, 폐쇄 루프 행동 디코더를 흔적, 원시 지시사항 및 현재 관측에 조건부 (conditioning) 합니다. 표준 로봇 데이터셋에는 이러한 흔적이 부족하므로, 시뮬레이션 벤치마크에서 장기 지평 조작과 시각 분포 이동 (visual distribution shift) 을 위해 시연을 시간적으로 분할하고 각 단계를 시각-언어 모델로 캡션으로 생성하여 가상의 감독 (pseudo-supervision) 을 구축했습니다. LIBERO 의 경우 95.5% 평균 성공률을 달성했으며, 이는 LIBERO-Long 에서 92.4%, SimplerEnv-WidowX 에서 전체 성공률 59.4%를 포함합니다. Ablation 실험은 두 모달리티가 모두 필요함을 보여줍니다: 흔적이 없으면 LIBERO-Long 성공률은 37.7%로 감소하며, 텍스트만과 시각만 흔적은 각각 62.0%와 68.4%에 도달하지만, 전체 교차 흔적은 92.4%를 달성했습니다. 실행 변동 (execution perturbations) 과 가려진 흔적 콘텐츠 (masked trace content) 를 활용한 스트레스 테스트는 중간적인 열화 (degradation) 를 보여주며, 이는 흔적이 국소적 부패와 중간적인 실행 편차에 견딜 수 있음을 시사하지만, 낡거나 잘못된 전역 계획 하에서는 한계가 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기