자기회귀 정책을 이용한 실시간 실행
요약
본 논문은 비동기 추론 기반의 실시간 실행 가능성을 탐구하며, 대규모 Vision-Language-Action 모델 배포에 중요함을 강조합니다. 기존 연구가 확산 정책에 집중한 것과 달리, 토큰화 지평 조정 및 제약 디코딩을 통해 자기회귀 정책이 실시간 실행을 달성할 수 있음을 입증했습니다.
핵심 포인트
- 자기회귀 정책은 비동기 추론으로 실시간 실행 가능함.
- 토큰화 지평 조정과 제약 디코딩이 핵심 기술임.
- 자기회귀 정책이 흐름 매칭 정책 대비 우수한 성능을 보임.
- 실제 환경에서 빠른 작업 완료 속도를 달성하여 경쟁력을 입증함.
실시간 실행은 부드러운 액션 궤적과 빠른 반응성을 모두 보장하는 비동기 추론(asynchronous inference)에 의해 가능하며, 대규모 Vision-Language-Action 모델의 현실적인 배포에 매우 중요합니다. 하지만 최근의 실시간 실행 관련 연구는 주로 확산 정책(diffusion policies)의 변형에 초점을 맞추고 있습니다. 이는 동기식 추론(synchronous inference)에서 자기회귀 정책이 더 느린 롤아웃 속도를 보이기 때문에, 사실은 자기회귀 정책에 더욱 중요합니다. 반면, 우리는 토큰화 지평(tokenization horizon)을 조정하고 제약 디코딩(constrained decoding)을 적용함으로써 자기회귀 정책이 실시간 실행을 달성할 수 있음을 보여줍니다. 이를 통해 성능을 극대화하는 다중 궤적 디코딩(multi-trajectory decoding)이 엄격한 지연 시간 경계(strict latency bounds)를 보장받게 됩니다. 시뮬레이션 환경과 실제 환경 전반에 걸쳐, 우리는 자기회귀 정책이 동등 수준의 흐름 매칭 정책(flow-matching policy) 대비 일관되게 우수한 성능을 보이면서도, 동기식 추론에서 현저하게 개선된 작업 완료 속도를 달성한다는 것을 발견했습니다. 명령어 수행(instruction-following)에서의 더 빠른 수렴과 향상된 일반화와 같은 자기회귀 정책의 본질적인 장점들과 결합하여, 이러한 결과들은 자기회귀 정책이 실시간 실행을 지원하는 경쟁력 있는 정책 유형으로 남아있을 수 있음을 확인시켜 줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기