arXiv논문2026. 06. 15. 11:41

탄성 쿼리 강화학습 (Elastic Queries Reinforcement Learning): VLA 모델을 위한 자기 인식 정책 실행

요약

VLA 모델의 경직된 추론 일정을 개선하기 위해 탄성 쿼리 강화학습(EQRL) 프레임워크를 제안합니다. 상태 난이도에 따라 계산 자원을 유동적으로 배분하여, 작업 성공률을 유지하면서도 추론 비용을 효율적으로 절감합니다.

핵심 포인트

VLA 모델의 고정된 재계획 일정을 난이도 인식 방식으로 개선
잠재 일정 어댑터를 통해 모델 미세 조정 없이 스케줄링 최적화
크리틱 앙상블 불일치를 활용한 상태 난이도 신호 도출
시뮬레이션 및 실제 로봇 환경에서 추론 비용 절감 및 성능 유지 확인

시각-언어-행동 (Vision-language-action, VLA) 모델은 로봇 조작을 위한 강력한 행동 생성기이지만, 일반적으로 고정된 추론 및 재계획 일정 (replanning schedules)에 따라 실행됩니다. 이러한 경직성은 로봇 제어의 불균일한 난이도를 무시합니다. 접촉이 빈번하거나 불확실한 상태는 더 많은 계산과 최신 피드백이 필요할 수 있는 반면, 더 쉬운 상태는 더 적은 추론 단계와 더 긴 개루프 (open-loop) 실행으로도 처리할 수 있는 경우가 많습니다. 우리는 각 VLA 정책 쿼리를 탄성적으로 만드는 프레임워크인 탄성 쿼리 강화학습 (Elastic Queries Reinforcement Learning, EQRL)을 제안합니다. 경량화된 잠재 일정 어댑터 (latent-schedule adaptor)는 기본 VLA 모델을 미세 조정 (fine-tuning)하지 않고도 잠재 입력 (latent input), 디노이징 예산 (denoising budget), 그리고 행동 청크 길이 (action chunk length)를 공동으로 선택합니다. 스케줄링을 난이도 인식 (difficulty-aware) 방식으로 만들기 위해, EQRL은 공동 잠재-일정 행동 (joint latent-schedule action)에 대해 크리틱 (critic)을 학습시키고, 크리틱 앙상블 불일치 (critic ensemble disagreement)로부터 상태 난이도 신호를 도출합니다. 이 신호는 계산 자원을 어려운 상태로 유도하며, 학습된 잔차 (residual)는 작업 중심의 수정을 허용합니다. 우리는 가변적 청크 실행을 청크 의존적 할인 (chunk-dependent discounting) 및 분할 상환된 함수 평가 횟수 (amortized number-of-function-evaluations, NFE) 예산을 가진 쿼리 수준의 매크로 행동 강화학습 (macro-action RL)으로 공식화합니다. 시뮬레이션과 실제 로봇 조작 전반에 걸쳐, EQRL은 작업 성공률을 유지하거나 향상시키면서 분할 상환된 추론 비용을 절감합니다.

AI 자동 생성 콘텐츠

원문 바로가기

탄성 쿼리 강화학습 (Elastic Queries Reinforcement Learning): VLA 모델을 위한 자기 인식 정책 실행

요약

핵심 포인트

댓글