arXiv논문2026. 06. 15. 11:38

Hy-Embodied-0.5-VLA: Vision-Language-Action 모델에서 실제 환경의 로봇 학습 스택까지

요약

Hy-Embodied-0.5-VLA(HyVLA-0.5)는 데이터 수집부터 모델 설계, 미세 조정, 강화학습, 실제 환경 배포까지 아우르는 엔드 투 엔드 로봇 학습 스택을 제안합니다. Vision-Language-Action(VLA) 모델을 통해 실제 환경에서의 로봇 제어 성능을 극대화하는 시스템을 다룹니다.

핵심 포인트

데이터 수집부터 실제 배포까지의 전체 로봇 학습 스택 구축
VLA 모델 기반의 엔드 투 엔드 시스템 설계
지속적 사전 학습 및 지도 미세 조정 기술 적용
강화학습(RL)을 활용한 사후 학습 프로세스 포함

Computer Science > Robotics

제목: Hy-Embodied-0.5-VLA: Vision-Language-Action (VLA) 모델에서 실제 환경의 로봇 학습 스택까지

View PDF HTML (experimental)초록: 본 보고서에서는 데이터 수집, 모델 설계, 지속적 사전 학습 (continued pre-training) 및 지도 미세 조정 (supervised fine-tuning), 강화학습 (RL) 사후 학습 (post-training), 그리고 실제 환경 배포 (real-world deployment)에 이르기까지 전체 로봇 학습 스택을 아우르는 엔드 투 엔드 (end-to-end) 시스템인 Hy-Embodied-0.5-VLA (약칭 HyVLA-0.5)를 소개합니다. 각 구성 요소는 이 스택에서 고유한 역할을 수행합니다.

서지 및 인용 도구

이 논문과 관련된 코드, 데이터 및 미디어

데모

arXivLabs: 커뮤니티 협력자와 함께하는 실험적 프로젝트

arXivLabs는 협력자들이 우리 웹사이트에서 직접 새로운 arXiv 기능을 개발하고 공유할 수 있도록 하는 프레임워크입니다.

arXivLabs와 함께하는 개인 및 조직은 개방성, 커뮤니티, 탁월함, 그리고 사용자 데이터 프라이버시라는 우리의 가치를 수용하고 받아들였습니다. arXiv는 이러한 가치에 전념하며, 이를 준수하는 파트너와만 협력합니다.

arXiv 커뮤니티에 가치를 더할 프로젝트 아이디어가 있나요? arXivLabs에 대해 더 알아보기.

AI 자동 생성 콘텐츠

원문 바로가기