Xiaomi 연구팀이 오픈 소스로 공개한 자율 주행 시각-언어-행동 (Vision-Language-Action) 프레임워크

요약

Xiaomi 연구팀이 자율 주행 분야에 활용할 수 있는 Vision-Language-Action 프레임워크를 오픈 소스로 공개했습니다. 이 프레임워크는 Qwen3-VL-4B를 기반으로 하며, 특히 '이중 모달 보조 디코더(Dual-modal Auxiliary Decoder)'라는 기능을 도입하여 성능을 향상시켰습니다. 이 새로운 디코더는 잠재 토큰으로부터 텍스트를 복원하는 기능과 미래 시점(0.5초 및 1.0초)의 행동을 예측하는 기능을 동시에 수행합니다.

핵심 포인트

Xiaomi 연구팀이 자율 주행용 VLA 프레임워크를 오픈 소스로 공개함.
기반 모델로 Qwen3-VL-4B를 사용하며, 'Dual-modal Auxiliary Decoder'가 핵심 기술임.
새로운 디코더는 텍스트 복원(잠재 토큰 기반)과 미래 행동 예측(0.5초, 1.0초)을 수행함.

Xiaomi 연구팀이 오픈 소스로 공개한 자율 주행 시각-언어-행동 (Vision-Language-Action) 프레임워크, Qwen3-VL-4B를 기반으로 이중 모달 보조 디코더 (Dual-modal Auxiliary Decoder) 도입 https://github.com/xiaomi-research/onevl … 하나는 잠재 토큰 (Latent Token)으로부터 추론 텍스트를 복원하고, 다른 하나는 미래 0.5초와 1.0초를 예측합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Xiaomi 연구팀이 오픈 소스로 공개한 자율 주행 시각-언어-행동 (Vision-Language-Action) 프레임워크

요약

핵심 포인트

댓글