본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 17. 12:53

시각적 검증을 통한 추론 시 제어 및 자율적 정책 개선

요약

로봇의 정책 성능을 추론 단계에서 개선하기 위한 생성기-검증기 프레임워크인 VERITAS를 제안합니다. 시각적 검증기를 통해 추가 학습 없이도 행동을 제어하며, 검증된 데이터를 활용한 사후 학습으로 전문가 수준의 성능을 달성할 수 있습니다.

핵심 포인트

  • 추론 시 정책 제어 및 자기 개선을 위한 VERITAS 프레임워크 제안
  • 그래디언트 프리 시각적 검증기를 통한 실시간 행동 평가 및 제어
  • 추가 시연 데이터 없이도 기존 정책 대비 우수한 성능 입증
  • 검증된 궤적을 활용한 사후 학습으로 전문가 수준의 효율성 달성

실세계에 배치된 로봇은 경험으로부터 학습하고 시간이 지남에 따라 개선되어야 합니다. 이를 위해서는 연습하고 피드백으로부터 학습하는 메커니즘이 필요합니다. 본 논문에서는 추론 시 정책 제어(inference-time policy steering) 및 자기 개선(self-improvement)을 위한 범용 로봇 정책용 생성기-검증기(generator-verifier) 프레임워크인 VERITAS를 제안합니다. 우리는 사전 학습된 범용 로봇 정책을 "생성기 (generator)"로 사용하고, 이를 추론 시 행동을 평가하는 그래디언트 프리(gradient-free) "시각적 검증기 (visual verifier)"와 결합합니다. 이 프레임워크는 추가적인 학습 없이도 정책 성능을 향상시키는 추론 시 제어(inference-time steering)를 가능하게 합니다. 우리는 추론 시 검증(inference-time verification)이 추가적인 시연 데이터(demonstration data)에 대한 학습 없이도 기존의 바닐라(vanilla) 범용 정책보다 일관되게 우수한 성능을 보임을 입증합니다. 또한, 검증된 롤아웃(verified rollouts)이 오프라인 정책 개선(offline policy improvement)을 위한 효과적인 감독(supervision)을 제공함을 보여줍니다. 즉, 검증된 자기 생성 궤적(self-generated trajectories)을 통해 미세 조정(fine-tuned)된 정책은 일관된 성능 향상을 달성합니다. 특히, 검증된 롤아웃을 통한 사후 학습(post-training)이 인간의 개입 없이도 전문가 시연(expert demonstrations)과 대등한 효율성을 달성한다는 것을 발견했습니다. 우리의 결과는 추론 시 검증이 로봇 정책을 배포 중에 개선하기 위한 실용적이고 확장 가능한 메커니즘임을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0