RCT: 촉각 일반화를 위한 로봇 수집 촉각-시각-언어 데이터셋

오픈 월드(open-world) 객체를 조작하는 로봇에게 있어, 촉각 표현(tactile representations)은 보지 못한 재질에도 일반화될 수 있어야 합니다. 우리는 7개 카테고리의 122개 산업용 참조 재질에 대해 로봇이 전체 압착을 수행하여 얻은 29,279개의 촉각 프레임을 포함하는, 로봇이 수집한 촉각-시각-언어(touch-vision-language) 데이터셋인 RCT (Robotic Contact Tactile)를 소개합니다. 이 데이터셋은 세 개의 DIGIT 센서를 사용하여 다양한 접촉 위치에서 기록되었습니다. RCT는 각 압착을 하나의 접촉 시퀀스(contact sequence)로 보존하여, 재질, 카테고리, 센서, 접촉 위치 및 접촉 시퀀스 전반에 걸친 홀드아웃 평가(held-out evaluation)를 가능하게 합니다. 하나의 압착에서 생성된 프레임들은 서로 강한 상관관계를 가집니다. 따라서 프레임 단위의 무작위 분할(frame-random splits)을 사용할 경우, 동일한 물리적 상호작용에 대한 거의 중복된 관측치가 훈련(training)과 테스트(test) 세트 모두에 배치될 수 있습니다. 인코더(encoder)를 고정시킨 상태에서 접촉 시퀀스 중복을 제거하면, 촉각-텍스트(tactile-to-text) Recall@1이 17.7 퍼센트 포인트 감소합니다. 훈련 시에 재질을 추가로 제외(held out)할 경우 성능이 급격히 떨어지며, 세 번의 홀드아웃 추출에 대한 평균 held-out-material Recall@1은 25.1 +/- 6.1%로 나타납니다. 공개된 TVL/HCT 분할 방식도 동일한 구조를 보여줍니다. 즉, 모든 테스트 접촉 시퀀스가 훈련 데이터에 포함되어 있으며, 원시 픽셀(raw-pixel) 최근접 이웃(nearest neighbors) 방식은 98.3%의 사례에서 올바른 시퀀스를 복구해냅니다. 압착(press)을 균일하게 샘플링하는 것은 대조 학습(contrastive training)을 개선하며, RCT로 학습된 임베딩(embeddings)은 보지 못한 재질에 대한 카테고리 프로브(category probes) 성능을 향상시킵니다. RCT는 접촉 시퀀스를 인식하는 held-out-material 평가를 재현 가능하게 만들며, 새로운 재질에 대한 일반화가 로봇 촉각 인지(robotic tactile perception)의 핵심 과제임을 드러냅니다. RCT 데이터셋은 https://faerber-lab.github.io/RCT/ 에서 오픈 소스로 공개됩니다.

Insights

RCT: 촉각 일반화를 위한 로봇 수집 촉각-시각-언어 데이터셋

요약

핵심 포인트

댓글

Ramp 연구 결과, AI 채용 속도가 빨라지며 AI 일자리 공포론이 꺾이다

AI 챗봇 사용자들에게서 나타나는 백신 반대 미신 현상

Mitsubishi Electric, JAXA로부터 완전 디지털 위성 탑재체 개발을 위한 보조금 수령

AI 기반 사용자 이름 정찰 오픈소스 도구 Aliens Eye

Ramp 연구 결과, AI 채용 속도가 빨라지며 AI 일자리 공포론이 꺾이다

AI 챗봇 사용자들에게서 나타나는 백신 반대 미신 현상

Mitsubishi Electric, JAXA로부터 완전 디지털 위성 탑재체 개발을 위한 보조금 수령

AI 기반 사용자 이름 정찰 오픈소스 도구 Aliens Eye