arXiv논문2026. 06. 08. 10:55

RhinoVLA 기술 보고서

요약

RhinoVLA는 엣지 하드웨어에서의 실시간 로봇 제어를 위해 설계된 배포 지향형 VLA 모델입니다. Qwen3-VL 백본과 하드웨어 인식 최적화를 통해 연산 부담을 줄이고, 이기종 로봇 간 학습을 지원하는 통합 인터페이스를 제공합니다.

핵심 포인트

Huixi R1 SoC에 최적화된 실시간 VLA 모델 제안
토큰 효율적 백본 및 연속적 행동 전문가 채택
이기종 로봇 지원을 위한 통합 인터페이스 도입
11.69 Hz의 추론 속도로 실시간 폐루프 제어 달성

시각-언어-행동 (Vision-Language-Action, VLA) 모델은 로봇 조작 (robotic manipulation) 분야에서 강력한 잠재력을 보여주었으나, 엣지 하드웨어 (edge hardware)에서의 실시간 배포는 여전히 도전적인 과제로 남아 있습니다. 본 연구에서는 VLM의 시각 및 컨텍스트 토큰 (context tokens)을 배포 지연 (deployment latency)의 주요 원인으로 식별하였습니다. 모델 차원이 고정된 경우, GEMM (General Matrix Multiply) 중심의 프로젝션 연산자 (projection operators)에 대해 연산량은 입력 토큰 수에 따라 선형적으로 증가합니다. 이러한 관찰에 착안하여, 우리는 Huixi R1 엣지 SoC (System on Chip)와 공동 설계된 배포 지향형 VLA 모델인 RhinoVLA를 제안합니다. RhinoVLA는 토큰 효율적인 Qwen3-VL 백본 (backbone)과 연속적 행동 전문가 (continuous Action Expert)를 채택하여, 사전 학습된 멀티모달 (multimodal) 능력을 유지하면서도 VLM 측의 토큰 및 연산 부담을 줄였습니다. 로봇 간 학습 (cross-robot learning)을 지원하기 위해, RhinoVLA는 뷰 레지스트리 (View Registry), 72D 물리적 상태-행동 슬롯 공간 (physical state-action slot space), 그리고 로봇 인스턴스 LoRA (robot-instance LoRA)를 결합한 통합 인터페이스를 추가로 도입하여, 이기종 로봇의 관측 (observations) 및 행동 스키마 (action schemas)가 공유된 정책 (policy) 하에 정렬될 수 있도록 합니다. 배포 측면에서 RhinoVLA는 하드웨어 인식 컴파일 (hardware-aware compilation), 혼합 정밀도 실행 (mixed-precision execution), 그리고 병렬 시각 인코딩 (parallel visual encoding)을 통해 최적화되었습니다. 실험 결과, RhinoVLA는 유사한 파라미터 규모에서 π0.5와 대등한 다운스트림 성능을 달성하는 동시에, Huixi R1에서 11.69 Hz의 엔드-투-엔드 (end-to-end) 추론 속도를 기록하여 10 Hz 실시간 폐루프 제어 (closed-loop control) 목표를 충족함을 보여주었습니다. 본 프로젝트는 https://github.com/HuixiAI/RhinoVLA 에서 오픈 소스로 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

RhinoVLA 기술 보고서

요약

핵심 포인트

댓글