arXiv중요논문2026. 04. 23. 23:42

VTouch++: 양손 조작을 위한 비전 기반 촉각 데이터셋

요약

본 논문은 복잡한 물리적 상호작용이 필수적인 양손(bimanual) 조작 작업을 위한 새로운 멀티모달 데이터셋인 VTOUCH++를 소개합니다. 기존 연구의 한계점이었던 풍부한 물리적 신호, 체계적인 작업 구성, 대규모 스케일 문제를 해결하기 위해 비전 기반 촉각 센싱을 활용하여 고화질 상호작용 데이터를 제공합니다. 또한 매트릭스 스타일의 작업 설계를 채택하고 자동화된 데이터 수집 파이프라인을 구축하여 확장성을 확보했습니다. 이 데이터셋은 크로스모달 검색(cross-modal retrieval) 및 실제 로봇 평가를 통해 그 효과가검

핵심 포인트

VTOUCH++는 양손 조작 작업을 위한 멀티모달 데이터셋입니다.
비전 기반 촉각 센싱을 활용하여 고화질 물리적 상호작용 신호를 제공합니다.
매트릭스 스타일의 작업 설계와 자동화된 파이프라인으로 확장성을 확보했습니다.
데이터셋은 크로스모달 검색 및 실제 로봇 환경에서 성능 검증을 거쳤습니다.

최근 체화 지능(Embodied intelligence) 분야가 빠르게 발전하고 있지만, 특히 접촉 상호작용이 많은 양손 조작 작업에서는 여전히 어려움이 많습니다. 이는 풍부한 물리적 신호와 체계적인 작업 구성, 충분한 규모를 갖춘 데이터셋이 부족하기 때문입니다.

저희는 이러한 한계를 극복하고자 VTOUCH++ 데이터셋을 개발했습니다. 이 데이터셋은 비전 기반 촉각 센싱(vision-based tactile sensing)을 활용하여 높은 충실도의 물리적 상호작용 신호를 제공합니다. 또한, 체계적인 학습이 가능하도록 매트릭스 스타일의 작업 설계를 채택했으며, 실제 환경에서 요구되는 시나리오를 포괄하는 자동화된 데이터 수집 파이프라인을 통해 확장성을 보장했습니다.

VTOUCH++의 효과 검증을 위해 크로스모달 검색(cross-modal retrieval)과 실제 로봇 평가 등 광범위한 정량적 실험을 수행했습니다. 궁극적으로는 여러 로봇, 정책, 작업에 걸쳐 일반화 가능한 추론 능력을 보여주며 실세계 성능을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

VTouch++: 양손 조작을 위한 비전 기반 촉각 데이터셋

요약

핵심 포인트

댓글