arXiv논문2026. 06. 15. 08:06

Embodied-BenchClaw: 체화된 공간 지능 (Embodied Spatial Intelligence) 벤치마크 구축을 위한 자율 멀티

요약

체화된 공간 지능(Embodied Spatial Intelligence) 평가를 위한 자율 에이전트 시스템인 Embodied-BenchClaw를 제안합니다. 5단계 파이프라인과 3개의 에이전트를 통해 지속적으로 업데이트 가능한 벤치마크 패키지를 자동으로 생성합니다.

핵심 포인트

자율 에이전트를 활용한 벤치마크 구축 자동화 파이프라인 제안
의도 작성부터 평가 보고까지 5단계의 자동화 프로세스 구축
실내외 공간 추론, 로봇 조작 등 다양한 도메인 벤치마크 구현
수동 구축 대비 높은 재사용성, 검증 가능성 및 유지보수 편의성 제공

벤치마크는 체화된 공간 지능 (Embodied Spatial Intelligence)을 평가하는 데 필수적이지만, 그 구축 과정은 노동 집약적이며 재사용이 어렵고 유지보수가 까다롭습니다. 기존의 체화된 벤치마크는 종종 정적이며, 모델이 발전함에 따라 빠르게 포화 상태에 이를 수 있어 새로운 능력을 구별하는 능력이 제한될 수 있습니다. 우리는 체화된 공간 지능 벤치마크 구축을 위한 자율 에이전트 시스템인 Embodied-BenchClaw를 제안합니다. 사용자가 지정한 평가 의도가 주어지면, Embodied-BenchClaw는 의도 청사진 작성 (intent blueprinting), 데이터 수집 (data collection), 구조화 및 정제 (structuring and cleaning), 벤치마크 합성 (benchmark synthesis), 평가 보고 (evaluation reporting)의 5단계 파이프라인을 통해 완전하고 지속적으로 업데이트 가능한 벤치마크 패키지를 자동으로 생성합니다. 이 파이프라인은 계획 (planning), 구축 (construction), 평가 (evaluation)를 담당하는 세 개의 에이전트에 의해 조정됩니다. 재사용성과 신뢰성을 높이기 위해, Embodied-BenchClaw는 확장 가능한 기술 라이브러리 (Skill Library)와 프로세스 품질 제어를 도입하여 벤치마크 구축이 조합 가능하고, 검증 가능하며, 수리 가능하도록 합니다. 우리는 실내 공간 추론 (indoor spatial reasoning), 실외 공간 추론 (outdoor spatial reasoning), 로봇 조작 (robotic manipulation), 4족 보행 로봇 내비게이션 (quadruped robot navigation), UAV/항공 뷰 이해 (UAV/aerial-view understanding), 그리고 정적 벤치마크 강화 (static benchmark enhancement)를 다루는 다수의 벤치마크를 구현합니다. 이러한 벤치마크들은 다양한 체화된 캐리어 (embodied carriers), 데이터 소스, 그리고 공간 능력을 아우릅니다. 인간 평가, 판사 기반 평가 (judge-based assessment), 일관성 검사 (consistency checks), 비용 분석 및 어블레이션 (ablations) 실험을 통해, Embodied-BenchClaw가 수동 노력을 줄이면서도 검증 가능하고, 실행 가능하며, 유지보수가 가능하고, 진단적으로 유용한 체화된 공간 벤치마크를 구축할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Embodied-BenchClaw: 체화된 공간 지능 (Embodied Spatial Intelligence) 벤치마크 구축을 위한 자율 멀티

요약

핵심 포인트

댓글