CT-VAM: 효율적인 시각-운동 제어를 위한 소뇌-시상 영감을 받은 시각-행동 모델
요약
CT-VAM은 소뇌-시상 구조에서 영감을 얻어 고수준 의도와 저수준 제어를 분리한 시각-행동 모델입니다. 68M의 경량 파라미터로도 대형 VLA 모델에 필적하는 성능을 내며, 클라우드-엣지 패러다임에 최적화된 로봇 제어를 제안합니다.
핵심 포인트
- 소뇌-시상 구조를 모방한 고수준 추론과 저수준 제어의 분리
- TARS 메커니즘을 통한 이질적 입력 스트림의 효율적 융합
- 68M 파라미터의 경량 모델로 낮은 추론 지연 시간 달성
- 자원 제한적인 로봇 플랫폼을 위한 실세계 배포 가능성 입증
시각-언어-행동 모델 (Vision-language-action models)은 로봇 조작 (robot manipulation) 분야에서 강력한 가능성을 보여주었으나, 가공되지 않은 언어는 고주파 저수준 실행 (high-frequency low-level execution) 동안 반복적으로 처리되기보다는 주로 작업 의도 (task intent)를 지정하는 데 필요합니다. 이러한 분리에 착안하여, 우리는 효율적인 작업 조건부 시각-운동 제어 (task-conditioned visuomotor control)를 위한 소뇌-시상 영감을 받은 시각-행동 모델 (cerebello-thalamic-inspired vision-action model, CT-VAM)을 제안합니다. CT-VAM은 이중 뷰 시각 관측 (dual-view visual observations), 고유 수용 감각 (proprioception), 그리고 경량화된 작업 조건 (lightweight task condition)으로부터 액션 청크 (action chunks)를 예측하는 컴팩트한 로컬 실행 정책 (local execution policy) 역할을 하며, 이는 고수준의 의미론적 추론 (high-level semantic reasoning)은 대형 모델이 처리하고 빠른 폐루프 제어 (fast closed-loop control)는 로컬 하드웨어에서 실행되는 실용적인 클라우드-엣지 패러다임 (cloud-edge paradigm)을 가능하게 할 잠재력을 가집니다. 이질적인 입력들을 효과적으로 융합하기 위해, CT-VAM은 TARS (Thalamic Action Routing Stream)를 도입합니다. TARS는 스트림 분리형 조건부 어텐션 디코더 (stream-separated conditional attention decoder)로, 액션, 시각, 작업 스트림을 독립적으로 라우팅하여 밀집된 감각 토큰 (dense sensory tokens)이 컴팩트한 작업 관련 조건 (task-relevant conditions)을 압도하는 것을 방지합니다. 단 68M 개의 파라미터만으로, CT-VAM은 추론 지연 시간 (inference latency)을 줄이면서도 훨씬 더 큰 VLA 모델들과 경쟁할 만한 LIBERO 성공률을 달성합니다. 비동기적 청크 실행 (asynchronous chunk execution)을 위한 흐름 일관적 인페인팅 (flow-consistent inpainting)과 결합하여, CT-VAM은 고주파 제어를 지원하며 자원이 제한된 로봇 플랫폼에서의 견고한 실세계 배포 (real-world deployment)를 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기