arXiv논문2026. 06. 12. 16:45

자기회귀 정책을 이용한 실시간 실행

요약

본 논문은 비동기 추론 기반의 실시간 실행 가능성을 탐구하며, 대규모 Vision-Language-Action 모델 배포에 중요함을 강조합니다. 기존 연구가 확산 정책에 집중한 것과 달리, 토큰화 지평 조정 및 제약 디코딩을 통해 자기회귀 정책이 실시간 실행을 달성할 수 있음을 입증했습니다.

핵심 포인트

자기회귀 정책은 비동기 추론으로 실시간 실행 가능함.
토큰화 지평 조정과 제약 디코딩이 핵심 기술임.
자기회귀 정책이 흐름 매칭 정책 대비 우수한 성능을 보임.
실제 환경에서 빠른 작업 완료 속도를 달성하여 경쟁력을 입증함.

실시간 실행은 부드러운 액션 궤적과 빠른 반응성을 모두 보장하는 비동기 추론(asynchronous inference)에 의해 가능하며, 대규모 Vision-Language-Action 모델의 현실적인 배포에 매우 중요합니다. 하지만 최근의 실시간 실행 관련 연구는 주로 확산 정책(diffusion policies)의 변형에 초점을 맞추고 있습니다. 이는 동기식 추론(synchronous inference)에서 자기회귀 정책이 더 느린 롤아웃 속도를 보이기 때문에, 사실은 자기회귀 정책에 더욱 중요합니다. 반면, 우리는 토큰화 지평(tokenization horizon)을 조정하고 제약 디코딩(constrained decoding)을 적용함으로써 자기회귀 정책이 실시간 실행을 달성할 수 있음을 보여줍니다. 이를 통해 성능을 극대화하는 다중 궤적 디코딩(multi-trajectory decoding)이 엄격한 지연 시간 경계(strict latency bounds)를 보장받게 됩니다. 시뮬레이션 환경과 실제 환경 전반에 걸쳐, 우리는 자기회귀 정책이 동등 수준의 흐름 매칭 정책(flow-matching policy) 대비 일관되게 우수한 성능을 보이면서도, 동기식 추론에서 현저하게 개선된 작업 완료 속도를 달성한다는 것을 발견했습니다. 명령어 수행(instruction-following)에서의 더 빠른 수렴과 향상된 일반화와 같은 자기회귀 정책의 본질적인 장점들과 결합하여, 이러한 결과들은 자기회귀 정책이 실시간 실행을 지원하는 경쟁력 있는 정책 유형으로 남아있을 수 있음을 확인시켜 줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

자기회귀 정책을 이용한 실시간 실행

요약

핵심 포인트

댓글