LabVLA: 과학 실험실 환경에서 비전-언어-행동 모델 접지하기
요약
본 논문은 과학 실험실 환경에 특화된 Vision-Language-Action (VLA) 모델인 LabVLA를 제안합니다. 기존 VLA 모델이 가정용 시연에 국한된 한계를 극복하기 위해, RoboGenesis라는 데이터 엔진을 구축하고 두 단계의 훈련(액션 토큰 사전 학습 및 흐름 매칭 사후 훈련)을 거쳤습니다. 이로써 LabVLA는 과학 실험실 워크플로우에서 높은 성공률을 입증했습니다.
핵심 포인트
- LabVLA: 과학 실험실 환경에 특화된 VLA 모델 제시
- RoboGenesis: 시뮬레이션 기반 데이터 및 워크플로우 엔진 구축
- 두 단계 훈련(Action Token Pretraining + Flow Matching)으로 성능 향상
- LabUtopia 벤치마크에서 최고 평균 성공률 달성
과학 실험실은 실험에 대해 추론하는 데 AI 시스템에 점점 더 의존하고 있지만, 과학을 수행하는 물리적 행위 자체는 여전히 그들의 범위를 벗어나 있습니다. AI는 문헌을 읽고, 가설을 생성하며, 프로토콜을 계획하는 데 도움을 줄 수 있지만, 벤치에서 해당 프로토콜을 실행하는 것은 여전히 인간 작업자를 필요로 합니다. Vision-Language-Action (VLA) 모델은 서면화된 프로토콜과 로봇 실행 사이의 가능한 인터페이스를 제공하지만, 기존 정책들은 주로 가정용 및 테이블탑 시연에 대해 훈련되었으며 과학 실험실에서 발견되는 기기, 투명 액체 또는 고정된 프로토콜 워크플로우와는 거의 접촉하지 못합니다. 이 격차를 해소하기 위해서는 실험실 특화 감독(supervision)과 실험 프로토콜을 실행하는 데 사용되는 다양한 로봇 구현체(embodiments)를 수용할 수 있는 통합 학습 프레임워크가 모두 필요합니다. 따라서 우리는 모델 설계와 더불어 데이터 및 구현체를 핵심 병목 현상으로 식별합니다. 데이터 측면을 해결하기 위해, 우리는 RoboGenesis라는 시뮬레이션 기반 워크플로우 및 데이터 엔진을 구축했습니다. 이는 원자적 기술(atomic skills)로부터 구성된 실험실 워크플로우를 조합하고, 롤아웃을 검증 및 필터링하며, 지원되는 로봇 프로파일 전반에 걸쳐 구조화된 시연을 내보냅니다. 정책 측면에서는, 우리는 LabVLA를 제시합니다. 이는 두 단계의 레시피로 훈련되었습니다: 먼저 FAST 액션 토큰 사전 학습(action token pretraining)이 Qwen3-VL-4B-Instruct 백본에 연속 제어 학습 이전에 행동 인지 능력을 부여하고, 그 후 흐름 매칭 사후 훈련(flow matching posttraining)을 통해 지식 격리(knowledge insulation) 하에 DiT 액션 전문가를 부착합니다. LabUtopia 벤치마크에서 LabVLA는 인 분포(in-distribution) 및 외 분포(out-of-distribution) 설정 모두에서 평가된 모든 기준선 대비 가장 높은 평균 성공률을 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기