프레임당 토큰 하나: VLA 정책을 위한 월드 모델의 시각적 대역폭 재고찰
요약
본 기사는 Vision-language-action (VLA) 모델이 장기 계획을 위해 사용하는 월드 모듈의 설계 문제를 다룹니다. 기존 방식은 높은 시각적 대역폭으로 프레임별 스트림을 전달하여 자원 비효율성을 초래했습니다. 이에 저자들은 각 뷰를 '프레임당 단일 의미론적 토큰'으로 압축하는 OneWM-VLA라는 새로운 접근 방식을 제안합니다.
핵심 포인트
- VLA 모델은 장기 계획을 위해 월드 모듈에 크게 의존하고 있으나, 이 모듈의 최적화된 매개변수화는 미해결 과제이다.
- 기존의 월드 모델 증강 VLA는 높은 시각적 대역폭으로 프레임별 스트림을 전달하여 자원 및 표현력 측면에서 비효율적일 수 있다.
- OneWM-VLA는 각 뷰를 '프레임당 단일 의미론적 토큰'으로 압축함으로써, 정보의 과부하 없이 효율적인 월드 모델링을 목표로 한다.
Vision-language-action (VLA) 모델은 장기적인 계획 수립을 위해 보조 월드 모듈에 점점 더 의존하고 있지만, 사전 훈련된 VLA 위에 이러한 모듈이 어떻게 매개변수화되어야 하는지는 여전히 열려 있는 설계 문제입니다. 기존의 월드 모델 증강 VLA는 일반적으로 프레임별 시각 스트림을 높은 시각적 대역폭으로 월드 모듈에 전달하고, 그 롤아웃(rollout)을 행동 예측의 부산물로 취급합니다. 고정된 백본 위에서 제약된 적응 예산 하에서는, 이는 프레임별 표현과 잠재적인 행동 결합 모두가 충분히 검토되지 않은 상태를 남깁니다. 우리는 각 뷰를 프레임당 단일 의미론적 토큰으로 압축하는 OneWM-VLA를 소개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기