arXiv논문2026. 05. 12. 03:11

TAVIS: 모방 학습을 위한 자아 중심 능동 시각 및 예측 응시의 벤치마크

요약

본 기술 기사는 모방 학습(imitation learning)의 핵심 역량으로 부상한 능동 시각(Active vision)에 대한 표준화된 평가 벤치마크인 TAVIS를 소개합니다. TAVIS는 전역 검색을 위한 TAVIS-Head와 국부 가림을 다루는 TAVIS-Hands라는 두 가지 태스크 스위트를 포함하며, IsaacLab 기반의 휴머노이드 몸체 위에서 구축되었습니다. 이 벤치마크는 능동 시각이 다양한 작업 유형과 조건 하에 얼마나 기여하는지 정량적으로 평가할 수 있는 표준화된 환경을 제공합니다.

핵심 포인트

능동 시각(Active vision)은 모방 학습에서 정책이 응시를 제어하여 성능 향상을 가져오는 핵심 기술로 부상했습니다.
기존에는 능동 시각의 기여도를 비교하거나 정량화할 수 있는 공유된 벤치마크가 부족했습니다.
TAVIS는 이 문제를 해결하기 위해 개발된 평가 인프라이자, 능동 시각 기반 모방 학습을 위한 표준 벤치마크입니다.
TAVIS는 전역 검색(Head)과 국부 가림(Hands)이라는 두 가지 보완적인 태스크 스위트를 제공하여 다양한 시나리오를 테스트할 수 있습니다.

능동 시각(Active vision)은 정책이 조작 과정에서 자신의 응시를 제어하는 것으로, 지난 1년간 여러 독립적인 시스템들이 그 이점을 입증하며 모방 학습(imitation learning)을 위한 핵심 역량으로 부상했습니다. 하지만 접근 방식들을 비교하거나 능동 시각이 어떤 작업 유형과 조건 하에 얼마나 기여하는지 정량화할 수 있는 공유된 벤치마크가 없습니다. 이에 저희는 능동 시각 기반 모방 학습을 위한 평가 인프라인 TAVIS를 소개합니다. TAVIS는 두 가지 보완적인 태스크 스위트—TAVIS-Head(5개 태스크, 팬/틸트 목을 통한 전역 검색)와 TAVIS-Hands(3개 태스크, 손목 카메라를 통한 국부 가림)—를 포함하며, IsaacLab 기반의 두 휴머노이드 몸체(GR1T2, Reachy2) 위에서 구축되었습니다. TAVIS는 세 가지 평가 기본 요소(evaluation primitives)를 제공합니다: 쌍을 이루는 헤드캠 대 고정 카메라 프로토콜

enchmark.

AI 자동 생성 콘텐츠

원문 바로가기

TAVIS: 모방 학습을 위한 자아 중심 능동 시각 및 예측 응시의 벤치마크

요약

핵심 포인트

댓글