Xiaomi 연구팀이 오픈 소스로 공개한 자율 주행 시각-언어-행동 (Vision-Language-Action) 프레임워크
요약
Xiaomi 연구팀이 자율 주행 분야에 활용할 수 있는 Vision-Language-Action 프레임워크를 오픈 소스로 공개했습니다. 이 프레임워크는 Qwen3-VL-4B를 기반으로 하며, 특히 '이중 모달 보조 디코더(Dual-modal Auxiliary Decoder)'라는 기능을 도입하여 성능을 향상시켰습니다. 이 새로운 디코더는 잠재 토큰으로부터 텍스트를 복원하는 기능과 미래 시점(0.5초 및 1.0초)의 행동을 예측하는 기능을 동시에 수행합니다.
핵심 포인트
- Xiaomi 연구팀이 자율 주행용 VLA 프레임워크를 오픈 소스로 공개함.
- 기반 모델로 Qwen3-VL-4B를 사용하며, 'Dual-modal Auxiliary Decoder'가 핵심 기술임.
- 새로운 디코더는 텍스트 복원(잠재 토큰 기반)과 미래 행동 예측(0.5초, 1.0초)을 수행함.
Xiaomi 연구팀이 오픈 소스로 공개한 자율 주행 시각-언어-행동 (Vision-Language-Action) 프레임워크, Qwen3-VL-4B를 기반으로 이중 모달 보조 디코더 (Dual-modal Auxiliary Decoder) 도입 https://github.com/xiaomi-research/onevl … 하나는 잠재 토큰 (Latent Token)으로부터 추론 텍스트를 복원하고, 다른 하나는 미래 0.5초와 1.0초를 예측합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @qingq77 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기