arXiv논문2026. 06. 30. 12:55

GROW$^2$: 로봇의 도구 사용을 위한 '무엇을' 그리고 '어디서'에 대한 그라운딩 (Grounding)

요약

로봇이 도구의 본래 목적 외에 창의적으로 도구를 사용할 수 있도록 돕는 GROW² 프레임워크를 소개합니다. VLM의 상식적 추론과 시각 파운데이션 모델을 결합하여 객체 선택과 동작 영역 국지화를 계층적으로 수행합니다.

핵심 포인트

의미론적·기하학적 계층 분리를 통한 효율적 그라운딩
VLM을 활용한 적절한 도구 및 작업 관련 부품 식별
시각 파운데이션 모델 기반의 정밀한 3D 영역 국지화
기존 벤치마크 및 실제 로봇 실험에서 SOTA 성능 달성
오픈 카테고리 객체에 대한 뛰어난 제로샷 일반화 능력

칼을 사용할 수 없다면 로봇이 접시를 사용하여 케이크를 자를 수 있을까요? 도구 사용 (Tool use)은 로봇의 능력을 크게 확장시키지만, 도구의 본래 목적을 넘어 창의적으로 도구를 사용하기 위해서는 로봇이 $\textit{오픈 월드 어포던스 그라운딩 (open-world affordance grounding)}$이라는 과제에 직면하게 됩니다. 즉, 도구로 사용할 오픈 카테고리 객체를 선택하고, 해당 객체의 구체적인 동작 영역을 국지화(localize)해야 합니다. 이를 위해 우리는 객체의 부품(parts)을 자연스러운 추상화 단위로 활용하여, 그라운딩 과정을 의미론적(semantic) 수준과 기하학적(geometric) 수준으로 계층적으로 분리함으로써 데이터 집약적인 엔드 투 엔드 (end-to-end) 학습의 필요성을 우회하는 GROW$^2$ (GROunding Which and Where)를 소개합니다. 의미론적으로, GROW$^2$는 시각-언어 모델 (Vision-Language Models, VLMs)의 상식적 추론 (commonsense reasoning)을 활용하여 자연어 작업 지침을 분석하고, 적절한 객체를 도구로 선택하며, 도구와 대상 객체에서 작업 관련 부품을 식별합니다. 기하학적으로는, 시각 파운데이션 모델 (vision foundation models)이 단일 RGB-D 이미지로부터 선택된 부품을 정밀한 3D 영역으로 그라운딩합니다. 기존 벤치마크에 대한 실험 결과, GROW$^2$는 어포던스 예측 (affordance prediction) 벤치마크에서 최첨단 (state-of-the-art) 베이스라인 모델들을 능가하는 성능을 보여주었습니다. 나아가, 오픈 카테고리 객체에 대해 제로샷 일반화 (zero-shot generalization)를 달성하였으며, 시뮬레이션 및 실제 로봇 도구 사용 실험 모두에서 베이스라인보다 뛰어난 성능을 기록했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

GROW$^2$: 로봇의 도구 사용을 위한 '무엇을' 그리고 '어디서'에 대한 그라운딩 (Grounding)

요약

핵심 포인트

댓글