형태학적 격차 해소: 의도 조건부 미세 조정을 통한 VLA 모델의 정교한 조작 적응
요약
본 논문은 로봇 조작 분야에서 VLA(Vision-Language-Action) 모델이 낮은 자유도 그리퍼에 국한되는 형태학적 격차 문제를 해결하기 위해 InDex라는 새로운 적응 프레임워크를 제안합니다. 이 방법은 기존의 1-DoF 출력을 가상 의도 프록시로 재활용하여, 두 단계 학습 아키텍처를 통해 다지 엔드 이펙터의 정교한 미세 조작을 데이터 효율적으로 수행할 수 있게 합니다.
핵심 포인트
- InDex는 형태학적 격차 문제를 해결하는 새로운 적응 프레임워크입니다.
- 기존 VLA 출력을 가상 그리핑 의도 프록시로 재활용하여 제어 토폴로지를 순차화합니다.
- 두 단계 학습 아키텍처를 통해 다지 엔드 이펙터의 미세 조작을 디코딩합니다.
- 최소한의 데이터로 복잡한 정교 조작 작업을 효과적으로 습득함을 입증했습니다.
Vision-Language-Action (VLA) 모델은 로봇 조작 분야에서 놀라운 제로샷 일반화 능력을 보여주었지만, 사전 학습된 파이프라인의 대다수는 여전히 낮은 자유도(low-DoF)의 평행 그리퍼에 엄격하게 국한되어 있습니다. 이러한 풍부한 의미론적 사전 지식을 높은 자유도의 정교한 손에 적용하는 것은 심각한 형태학적 격차(morphology gap)를 야기하며, 직접적인 종단 간 관절 미세 조정은 본질적으로 데이터 부족으로 인해 공간 추론의 치명적 망각(catastrophic forgetting)과 급격한 액션 매니폴드 붕괴(acute action manifold collapse)를 초래합니다. 본 논문에서는 교차 형태학적 의미론적 상속에 기반을 둔 새롭고 데이터 효율적인 적응 프레임워크인 InDex를 제시합니다. 사전 학습된 1-DoF 평행 그리핑 출력을 폐기하는 대신, 이를 연속적이고 거시적인 가상 그리핑 의도 프록시(virtual grasp intent proxy)로 재활용하여 제어 토폴로지를 순차화합니다. 우리는 두 단계의 디커플링된 학습 아키텍처를 구현했습니다: 첫 번째 단계에서는 VLA 백본을 매개변수 효율적으로 정렬하여 연속적인 팔 궤적과 스칼라 그리핑 의도를 예측하고, 두 번째 단계에서는 이 공간적 백본을 고정하고 의도 조건부 노이즈 제거 확산 헤드(intent-conditioned denoising diffusion head)를 활용하여 다지(multi-fingered) 엔드 이펙터의 미세한 관절 움직임을 디코딩합니다. 일련의 다단계, 접촉 기반 정교 조작 작업을 아우르는 광범위한 시뮬레이션 벤치마크는 InDex가 최소한의 데모네이션 데이터로 복잡한 기술을 효과적으로 습득하며, 원래 VLA 사전 지식의 강력한 공간 일반화 능력을 유지하면서도 단일 모델 기반의 베이스라인보다 상당히 우수함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기