arXiv논문2026. 06. 15. 07:30

VLA에게 무엇을 말할지 배우기: 대부분 무해한 Vision Language Action Model 스티어링

요약

VLA(Vision-Language-Action) 모델의 로봇 제어 성능을 높이기 위해 대화형 언어 피드백 정책(LFP)을 제안하는 연구입니다. 모델 미세 조정 없이도 언어 스티어링을 통해 작업 성공률을 높이며, 컨포멀화(conformalize) 기술로 해로운 개입을 방지합니다.

핵심 포인트

VLA 모델의 언어-행동 매핑 취약성 해결을 위한 프레임워크 제안
테스트 타임 언어 피드백 정책(LFP)을 통한 성능 증류
컨포멀화 기술을 적용하여 해로운 스티어링 개입 방지 및 무해성 보장
사전 학습된 VLA 모델의 미세 조정 없이 시뮬레이션 및 하드웨어 성능 향상

Vision-Language-Action (VLA) 모델은 로봇 제어를 위한 자연어 인터페이스를 제공하지만, 언어에서 행동으로의 매핑은 종종 취약하고 직관적이지 않습니다. 즉, 의미론적으로 유사한 지시어가 극적으로 다른 행동을 유도할 수 있는 반면, 일부 능력은 프롬프팅 (prompting)만으로는 이끌어낼 수 없을 수도 있습니다. 결과적으로, 인간의 지시와 제로샷 (zero-shot) 언어 모델 모두 VLA를 성공적인 작업 수행으로 안정적으로 유도(steer)하는 데 실패할 수 있습니다. 본 연구에서는 폐루프 (closed-loop) VLA 작업 성능을 향상시키는 언어 시퀀스를 대화형으로 탐색하고, 이러한 시퀀스를 테스트 타임 언어 피드백 정책 (Language Feedback Policy, LFP)으로 증류(distill)하며, 언어 스티어링이 성능을 향상시킬 시점을 예측하는 개선 헤드 (improvement head)를 학습하는 프레임워크를 제안합니다. 우리는 분포 외 (out-of-distribution) 시나리오에서 LFP가 원래 지시어에 비해 작업 성능을 저하시키는 해로운 스티어링 개입을 방지하기 위해 이 개선 헤드를 컨포멀화 (conformalize)합니다. 결정적으로, 우리의 접근 방식은 임의의 동결된 (frozen) 사전 학습된 VLA에서 작동하며, 원래의 학습 분포에 대한 접근이나 기본 모델의 미세 조정 (fine-tuning)을 필요로 하지 않습니다. 학습된 환경에서 우리의 컨포멀화된 LFP는 시뮬레이션에서 24.7%, 하드웨어에서 65.0%의 기본 VLA 성능 향상을 보여주었습니다. 시각적 및 의미론적 섭동 (perturbations) 상황에서도 우리의 컨포멀화된 LFP는 강력한 무해성 보장을 제공하며, 오픈루프 (open-loop) 프롬프팅에서는 관찰되지 않았던 복구 행동을 생성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

VLA에게 무엇을 말할지 배우기: 대부분 무해한 Vision Language Action Model 스티어링

요약

핵심 포인트

댓글