arXiv논문2026. 06. 25. 00:17

MANGO: Vision-Language-Action 모델을 위한 자동화된 멀티 에이전트 테스트 오라클 생성

요약

VLA 모델의 로봇 제어 테스트를 위해 자연어 설명을 기반으로 세밀한 테스트 오라클을 자동 생성하는 멀티 에이전트 프레임워크 MANGO를 제안합니다. MANGO는 원자적 작업 라이브러리와 협력적 에이전트 시스템을 통해 기존 수동 방식의 한계를 극복하고 정밀한 결함 위치 파악을 지원합니다.

핵심 포인트

VLA 모델을 위한 자동화된 멀티 에이전트 테스트 오라클 생성 프레임워크 MANGO 소개
수동 심볼릭 오라클의 높은 구축 비용과 확장성 문제를 해결
Generator, Assessor, Judge 에이전트의 협업을 통한 오라클 품질 개선
LIBERO_10 및 RoboCasa 벤치마크에서 실패 위치 파악 및 진단 정보 우수성 입증

Vision-Language-Action (VLA) 모델은 인지, 언어 이해, 그리고 행동 생성을 단일 아키텍처로 통합하는 신흥 로봇 제어 시스템입니다. VLA 기반 로봇을 위한 기존의 테스트 접근 방식은 최종 환경 상태로부터 작업 성공 여부를 결정하는 수동으로 구축된 심볼릭 테스트 오라클 (symbolic test oracles)에 의존합니다. 이러한 오라클은 구축 비용이 많이 들고 도메인 전문 지식이 필요하며, 종종 특정 작업 및 환경에 밀접하게 결합되어 있어 확장성과 재사용성을 제한합니다. 또한, 작업 결과에 대한 최종 상태 평가만을 제공하므로 중간 행동 및 결함 위치 파악 (fault localization)에 대한 통찰력이 제한적입니다. 이러한 한계를 해결하기 위해, 우리는 로봇 작업의 자연어 설명을 통해 세밀한(fine-grained) 오라클을 자동으로 생성하는 멀티 에이전트 프레임워크인 MANGO를 소개합니다. MANGO는 먼저 재사용 가능한 원자적 작업 (atomic tasks) 라이브러리를 생성한 다음, 각 원자적 작업에 대해 시뮬레이터에 기반한 오라클 정의를 생성하며, 마지막으로 복잡한 지시사항을 순차적인 원자적 행동 및 그에 상응하는 오라클 시퀀스로 분해하여 실행 가능한 세밀한 오라클을 생성합니다. 이 프레임워크는 구조화된 피드백을 통해 생성된 결과물을 반복적으로 개선하는 협력적인 Generator, Assessor, Judge 에이전트를 사용합니다. 우리는 LIBERO_10 및 RoboCasa Humanoid Tabletop 벤치마크에서 MANGO를 평가했습니다. 결과에 따르면, MANGO는 심볼릭 오라클과 유사한 수의 실패를 감지하면서도, 실패 위치를 정확하게 파악하고 더 풍부한 진단 정보를 제공하는 실행 가능한 세밀한 오라클을 생성합니다. 절제 연구 (ablation studies)를 통해, 우리는 오라클의 품질을 유지하면서 구성 요소의 기여도와 초기 작업 세트의 효과를 추가로 분석했습니다. 전반적으로, 결과는 VLA 기반 로봇 테스트를 위한 테스트 오라클 생성의 타당성과 효과를 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

MANGO: Vision-Language-Action 모델을 위한 자동화된 멀티 에이전트 테스트 오라클 생성

요약

핵심 포인트

댓글