RoboWits: 로봇의 창의적 문제 해결을 위한 예상치 못한 도전 과제들
요약
로봇의 인지적 추론과 창의적 문제 해결 능력을 평가하기 위한 새로운 양손 로봇 벤치마크인 RoboWits를 제안합니다. 멀티 에이전트 협력 프레임워크를 통해 자동화된 태스크 생성 파이프라인을 구축하여 다양한 변이 시나리오를 제공합니다.
핵심 포인트
- 인지적 추론 및 창의적 도구 사용 평가를 위한 RoboWits 벤치마크 소개
- 멀티 에이전트 기반의 자동화된 태스크 생성 및 변이 파이프라인 제안
- 기존 VLA 모델들이 변이된 태스크 수행 시 강건성이 부족함을 입증
- 기하학, 재질, 조립 기반의 다양한 난이도 태스크 큐레이션
예상치 못한 도전 과제 상황에서 추론하고, 적응하며, 창의적으로 문제를 해결하는 능력은 실제 환경에서 작동하는 로봇에게 필수적입니다. 그러나 현재의 로봇 벤치마크 (benchmarks)는 주로 기술 수준의 실행에 중점을 두고 있으며, 이러한 인지적 추론 (cognitive reasoning) 능력에 대해서는 제한적인 통찰만을 제공합니다. 우리는 인지적 추론, 창의적인 도구 사용, 그리고 예상치 못한 조건에 대한 강건성 (robustness)을 체계적으로 평가하기 위해 설계된 양손 로봇 벤치마크인 RoboWits를 소개합니다. 고품질의 추론 중심 예상 시나리오를 확장 가능한 방식으로 구축하기 위해, 우리는 시드 태스크 (seed task) 생성 및 검증, 메트릭 (metric) 생성, 장면 (scene) 생성, 그리고 태스크 변이 (task mutation)를 담당하는 에이전트들로 구성된 멀티 에이전트 협력 프레임워크 (multi-agent cooperative framework) 형태의 자동화된 태스크 생성 파이프라인을 제안합니다. 이 파이프라인을 사용하여, 우리는 기하학, 재질, 그리고 조립 기반 추론에 걸쳐 다양한 난이도로 구성된 30개의 다양한 시드 태스크와 변이가 적용된 208개의 태스크를 큐레이션했습니다. 우리는 대중적인 로봇 정책 (robot policies), 사전 학습된 VLA (VLAs), 그리고 오라클 상태 플래너 (oracle-state planners)를 벤치마킹했습니다. 우리의 결과는 상당한 성능 격차를 보여줍니다. 사전 학습된 VLA는 단일 태스크 미세 조정 (fine-tuning) 이후 시드 태스크에서는 예비적인 성공을 보이지만, 변이된 태스크를 수행하는 데는 어려움을 겪습니다. 이는 추론, 전략 적응, 그리고 기만적이거나 제약이 있는 환경에 대한 강건성을 요구하는 조작 (manipulation) 태스크에서 이들의 취약성 (brittleness)을 시사합니다. 프로젝트 페이지는 https://umass-embodied-agi.github.io/RoboWits 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기