UniTac: 교차 센서 촉각 이해 및 생성을 위한 통합 멀티모달 모델
요약
UniTac은 촉각 이해와 생성을 통합한 최초의 멀티모달 모델(UMM)입니다. 센서와 물체의 속성을 모두 인코딩하는 이중 수준 표현을 통해 비접촉에서 접촉으로의 물리적 상호작용을 효과적으로 모델링합니다.
핵심 포인트
- 촉각 이해 및 생성을 위한 최초의 통합 멀티모달 모델 제안
- 센서와 물체 속성을 동시에 포착하는 이중 수준 표현 방식 도입
- 재구성 및 정렬 기반의 2단계 촉각 생성 학습 패러다임 설계
- 대규모 멀티 센서 데이터셋을 통해 촉각 이해 분야 SOTA 달성
통합 멀티모달 모델 (Unified multimodal models, UMMs)은 다양한 모달리티(modalities)에 걸쳐 이해와 생성을 통합하는 데 있어 큰 가능성을 보여주었습니다. 그러나 기존 연구는 물체 수준의 의미론(object-level semantics)과 센서 수준의 구성(sensor-level configurations)이 촉각의 의미를 공동으로 결정하는 촉각(tactile) 영역으로 이 패러다임을 확장하는 경우가 드뭅니다. 이러한 격차를 해소하기 위해, 우리는 촉각 이해 및 생성을 위해 설계된 최초의 UMM인 UniTac을 제안합니다. UniTac은 촉각 과정을 비접촉에서 접촉으로의 전이로 모델링하며, 센서와 물체의 속성을 모두 인코딩하는 이중 수준 표현(dual-level representation)을 통해 센서와 물체 사이의 물리적 상호작용을 포착합니다. 촉각 이해를 위해, UniTac은 물리적 및 교차 센서 정보에 대한 추론을 강화하기 위해 물체 속성 기술(object property description)과 센서 식별(sensor identification)이라는 두 가지 태스크를 도입합니다. 촉각 생성을 위해, 우리는 재구성(reconstruction)과 정렬(alignment)로 구성된 2단계 학습 패러다임을 설계하였으며, 이와 함께 실제적인 촉각 접촉을 시뮬레이션하는 센서 사전 기반 샘플링(sensor-prior-based sampling) 전략을 함께 설계했습니다. 대규모 멀티 센서 데이터셋으로 학습된 UniTac은 촉각 이해에서 최첨단(state-of-the-art) 성능을 달성하며, 다양한 센서에 걸쳐 실제적인 촉각 신호를 생성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기