RCT: 촉각 일반화를 위한 로봇 수집 촉각-시각-언어 데이터셋
요약
로봇의 촉각 일반화를 위해 구축된 촉각-시각-언어(RCT) 데이터셋을 소개합니다. 122개의 산업용 재질을 대상으로 수집된 29,279개의 촉각 프레임을 포함하며, 새로운 재질에 대한 로봇의 인지 능력을 평가할 수 있는 구조를 제공합니다.
핵심 포인트
- 122개 산업용 재질에 대한 촉각-시각-언어 데이터셋 RCT 공개
- 접촉 시퀀스 단위의 평가를 통해 재질 일반화 성능 측정 가능
- 프레임 단위 무작위 분할 시 발생하는 데이터 중복 문제 지적
- 대조 학습을 통한 임베딩 성능 향상 및 새로운 재질 인지 능력 입증
오픈 월드(open-world) 객체를 조작하는 로봇에게 있어, 촉각 표현(tactile representations)은 보지 못한 재질에도 일반화될 수 있어야 합니다. 우리는 7개 카테고리의 122개 산업용 참조 재질에 대해 로봇이 전체 압착을 수행하여 얻은 29,279개의 촉각 프레임을 포함하는, 로봇이 수집한 촉각-시각-언어(touch-vision-language) 데이터셋인 RCT (Robotic Contact Tactile)를 소개합니다. 이 데이터셋은 세 개의 DIGIT 센서를 사용하여 다양한 접촉 위치에서 기록되었습니다. RCT는 각 압착을 하나의 접촉 시퀀스(contact sequence)로 보존하여, 재질, 카테고리, 센서, 접촉 위치 및 접촉 시퀀스 전반에 걸친 홀드아웃 평가(held-out evaluation)를 가능하게 합니다. 하나의 압착에서 생성된 프레임들은 서로 강한 상관관계를 가집니다. 따라서 프레임 단위의 무작위 분할(frame-random splits)을 사용할 경우, 동일한 물리적 상호작용에 대한 거의 중복된 관측치가 훈련(training)과 테스트(test) 세트 모두에 배치될 수 있습니다. 인코더(encoder)를 고정시킨 상태에서 접촉 시퀀스 중복을 제거하면, 촉각-텍스트(tactile-to-text) Recall@1이 17.7 퍼센트 포인트 감소합니다. 훈련 시에 재질을 추가로 제외(held out)할 경우 성능이 급격히 떨어지며, 세 번의 홀드아웃 추출에 대한 평균 held-out-material Recall@1은 25.1 +/- 6.1%로 나타납니다. 공개된 TVL/HCT 분할 방식도 동일한 구조를 보여줍니다. 즉, 모든 테스트 접촉 시퀀스가 훈련 데이터에 포함되어 있으며, 원시 픽셀(raw-pixel) 최근접 이웃(nearest neighbors) 방식은 98.3%의 사례에서 올바른 시퀀스를 복구해냅니다. 압착(press)을 균일하게 샘플링하는 것은 대조 학습(contrastive training)을 개선하며, RCT로 학습된 임베딩(embeddings)은 보지 못한 재질에 대한 카테고리 프로브(category probes) 성능을 향상시킵니다. RCT는 접촉 시퀀스를 인식하는 held-out-material 평가를 재현 가능하게 만들며, 새로운 재질에 대한 일반화가 로봇 촉각 인지(robotic tactile perception)의 핵심 과제임을 드러냅니다. RCT 데이터셋은 https://faerber-lab.github.io/RCT/ 에서 오픈 소스로 공개됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기