arXiv논문2026. 06. 01. 11:01

안전한 인간-로봇 협업을 위한 시각-언어 모델(VLM)의 충돌 접지(Collision Grounding) 능력 조사

요약

인간-로봇 협업의 안전성을 위해 VLM의 충돌 접지(Collision Grounding) 능력을 평가하는 새로운 벤치마크인 TouchSafeBench를 제안합니다. 연구 결과, 현재의 최첨단 VLM들은 물리적 충돌을 예측하고 판단하는 데 있어 신뢰할 수 없는 성능을 보였습니다.

핵심 포인트

충돌 접지 능력을 평가하는 물리 기반 벤치마크 TouchSafeBench 소개
Habitat 3.0 기반의 2,940개 시뮬레이션 에피소드 데이터셋 구축
현재 VLM의 충돌 예측 성능은 Macro-F1 점수 50% 미만으로 저조함
시각적 유창함이 물리적 안전을 보장하지 않음을 입증

안전한 인간-로봇 협업(human--robot collaboration)을 위해서는 단순한 시각적 묘사 그 이상의 것이 필요합니다. 모니터는 로봇 본체가 안전하게 분리되어 있는지, 이미 장면이나 사람과 충돌하고 있는지, 아니면 충돌할 예정인지를 판단할 수 있어야 합니다. 우리는 이러한 능력을 충돌 접지(collision grounding)라고 부릅니다. 즉, 현재 및 임박한 접촉을 추론하기 위해 시각적 관찰(visual observations)을 로봇 본체 기하학(robot body geometry), 카메라 시점(camera viewpoint), 장면 레이아웃(scene layout), 인간 근접성(human proximity), 그리고 시간적 움직임(temporal motion)에 결합하는 것을 의미합니다.

우리는 시각-언어 모델(Vision-Language Models, VLMs)의 충돌 접지 능력을 평가하기 위한 물리 기반 벤치마크인 TouchSafeBench를 소개합니다. Habitat 3.0을 기반으로 구축된 TouchSafeBench는 사회적 내비게이션(social navigation) 및 사회적 재배치(social rearrangement) 전반에 걸쳐 2,940개의 시뮬레이션된 실내 공존 에피소드(co-presence episodes)를 포함하고 있으며, 동기화된 다중 시점 RGB-D 관찰 데이터, 탑다운 궤적 지도(top-down trajectory maps), 보정된 카메라 메타데이터, 그리고 시뮬레이터 유도 접촉 레이블(simulator-derived contact labels)을 제공합니다.

우리는 실제 배포를 염두에 둔 두 가지 작업, 즉 현재의 안전 상태를 분류하는 작업과 접촉 전 임박한 충돌에 대해 경고하는 작업을 연구합니다. 세 가지 최첨단 또는 로보틱스 지향 VLMs 및 9가지 시각적 표현(visual representations)을 대상으로 조사한 결과, 현재 모델들은 신뢰할 수 있는 수준과는 거리가 멀었습니다. 가장 높은 평균 Macro-F1 점수는 50% 미만에 머물렀으며, 명시적인 깊이(explicit depth) 정보가 로봇 본체 충돌 증거로 자동 변환되지 않았고, 로봇-장면(robot--scene) 간의 접촉은 인간 접촉 위험보다 지속적으로 더 어려운 것으로 나타났습니다.

TouchSafeBench는 체화된 VLMs(embodied VLMs)의 핵심적인 한계를 드러냅니다. 즉, 시각적 유창함(visual fluency)이 물리적 책임감(physical accountability)을 의미하지는 않는다는 것입니다. 신뢰할 수 있는 로봇 안전 모니터는 시점, 로봇 형태(robot morphology), 미터법 기하학(metric geometry), 그리고 미래의 충돌을 명시적으로 결합하는 표현(representations)을 필요로 할 것입니다. 우리는 논문 채택 시 벤치마크를 공개할 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

안전한 인간-로봇 협업을 위한 시각-언어 모델(VLM)의 충돌 접지(Collision Grounding) 능력 조사

요약

핵심 포인트

댓글