arXiv논문2026. 06. 15. 07:50

DAM-VLA: 분리된 비동기 다중 모드 시각 언어 행동 모델

요약

기존 VLA 모델은 모든 모달리티를 동일한 속도로 처리하는 동기식 클록을 사용해 물리적 상호작용에 부적합했습니다. 본 논문에서 DAM-VLA는 각 모달리티별 잠재 버퍼를 유지하고 센서 속도에 맞춰 정보를 업데이트하여, 고주파/저주파 변화가 공존하는 실제 세계 조작 작업의 성능을 크게 향상시킨 비동기 다중 모드 시각 언어 행동 모델입니다.

핵심 포인트

DAM-VLA는 각 모달리티별 잠재 버퍼를 사용하여 시간 처리를 분리합니다.
센서 속도에 맞춰 정보를 업데이트하여 물리적 상호작용의 현실성을 높였습니다.
실제 세계 조작 작업에서 기존 동기식 모델 대비 평균 성공률을 두 배 이상 개선했습니다.

시각-언어-행동 (VLA) 모델은 시각-언어 사전 학습에서 공유되는 동기식 클록을 상속받아 모든 입력을 동일한 속도로 처리합니다. 이는 물리적 상호작용과 맞지 않습니다. 물리적 상호작용에서는 고주파 모달리티가 수백 헤르츠로 변화하고, 시각은 더 느리게 진화하며, 언어는 에피소드 전반에 걸쳐 일정하게 유지됩니다. 동기식 VLA는 느린 모달리티를 과샘플링하고, 빠른 모달리티를 저샘플링하며, 행동 생성을 가장 낮은 유효 주파수로 제한합니다. 우리는 각 모달리티별 시간 처리를 분리하여, 각 부분이 자체 센서 속도로 정보를 업데이트하고 유지하도록 하는 것이 더 강력한 표현과 더 견고한 제어를 제공한다고 가정합니다. 우리는 DAM-VLA를 제시하며, 이는 모달리티별 잠재 버퍼(latent buffers)를 유지하고 이를 센서 속도로 새로 고치며 행동 헤드(action head)가 지속적으로 읽어들이도록 합니다. 또한 사전 학습된 백본(backbone)을 그대로 유지하면서 게이티드 교차 어텐션(gated cross-attention)을 통해 새로운 고주파 모달리티를 통합합니다. 접촉이 많은 7가지 실제 세계 조작 작업에서, DAM-VLA는 가장 강력한 동기식 기준선 대비 평균 성공률을 두 배 이상 높였으며 (95.2% 대 40.95%), 부드럽고 반응적인 100Hz 제어를 유지했습니다. 프로젝트 웹사이트:
{https://intuitive-robots.github.io/DAM-VLA/}

AI 자동 생성 콘텐츠

원문 바로가기

DAM-VLA: 분리된 비동기 다중 모드 시각 언어 행동 모델

요약

핵심 포인트

댓글